Une ouverture fermée, ou une fermeture ouverte ?
![Vers des critères plus clairs pour l’« IA ouverte » ?](http://next.ink/wp-content/uploads/2024/08/Ia-ouverte.webp)
Alors que les entreprises du secteur annoncent régulièrement la sortie de modèles « ouverts », le besoin d’une définition claire du terme est de plus en plus présent. L’Open Source Initiative a proposé la semaine dernière son dernier brouillon de définition.
Comme nous l’expliquions en novembre dernier, le marketing de l’« ouverture » est intense dans le milieu de l’intelligence artificielle générative. L’Open Source Initiative (OSI) a rassemblé 70 experts (incluant chercheurs, avocats, militants, décideurs politiques et entreprises comme Meta, Google etc) pour essayer de clarifier le terme concernant ce domaine.
Le chercheur David Gray Widder et les deux chercheuses Sarah Myers West et Meredith Whittaker expliquaient en fin d’année dernière que les termes « open » et « opensource » constituent « souvent plus une aspiration ou un marketing qu’un descripteur technique, et mélangent fréquemment des concepts issus à la fois des logiciels open source et de la science ouverte ».
On parle aussi d’« Open washing » et on peut se rendre compte de la complexité de la situation en replongeant dans l’analyse de deux chercheurs néerlandais de plusieurs dizaines de modèles de génération de textes et/ou d’images se prétendant « open ». Open ne veut pas toujours dire open, et bien souvent pas totalement.
Un milieu aux utilisations hétérogènes
Du nom du créateur de ChatGPT, OpenAI, au matraquage de Meta pour qualifier ses modèles Llama d’« open source », la plupart des acteurs du milieu a utilisé ce vocabulaire. Mais il reste difficile de savoir ce qu’il en est vraiment, les définitions étant encore floues pour ce domaine. De ce que permet la licence aux informations sur les données utilisées pour l’entrainement du modèle en passant par l’ouverture de ses poids et du code, de nombreux paramètres peuvent entrer dans l’équation.
D’autres acteurs, comme Apple, ont publié leurs modèles de façon très ouverte sans le clamer haut et fort. Mais l’Open source initiative se pose quand même des questions sur la licence « Apple sample code license » créée pour l’occasion par la firme à la Pomme.
Quatre libertés
L’OSI a publié récemment un brouillon de définition (version 0.0.9) qui commence à cadrer les choses.
Le texte, encore en discussion, met en avant quatre « libertés » que le terme « Open Source AI » devrait contenir, celle de :
- Utiliser le système à n’importe quelle fin et sans avoir à demander la permission ;
- Étudier le fonctionnement du système et inspecter ses composants ;
- Modifier le système dans n’importe quel but, y compris pour en changer les résultats ;
- Partager le système pour que d’autres puissent l’utiliser, avec ou sans modifications, dans n’importe quel but.
Ces « libertés » s’inspirent de celles définies par la Free Software Foundation concernant le logiciel libre, expliquent l’organisation. « Ces libertés s’appliquent à la fois à un système entièrement fonctionnel et à des éléments discrets d’un système », ajoute l’organisme.
L’IA définit sur la base du machine learning
Elles s’appliqueraient à des systèmes d’IA dont la définition est aussi donnée par l’OSI :
« Un système d’IA est un système basé sur une machine qui, pour des objectifs explicites ou implicites, déduit, à partir des données qu’il reçoit, comment générer des résultats tels que des prédictions, du contenu, des recommandations ou des décisions qui peuvent influencer des environnements physiques ou virtuels. Les différents systèmes d’IA varient dans leurs niveaux d’autonomie et d’adaptabilité après le déploiement ».
L’organisme indique aussi qu’« une condition préalable à l’exercice de ces libertés est d’avoir accès à la forme privilégiée pour apporter des modifications au système ». La « forme privilégiée » d’un tel système étant aussi définie par l’OSI. Celle-ci devrait comporter des informations « suffisamment détaillées », le code source sous une licence « approuvée par l’OSI », ainsi que les paramètres et poids du modèle.
Pas d’obligation d’exhaustivité sur les données
L’Open source initiative ne prend, par contre, pas position sur le besoin d’une licence ou non pour encadrer les paramètres du modèle. Le brouillon ne contient pas non plus d’obligation de lister de façon exhaustive les données sur lesquelles le modèle a été entrainé. Cette information est d’autant plus sensible que nombre d’entreprises du secteur sont accusées d’avoir enfreint le Copyright de contenus pour les entrainer.
Le site de l’OSI prévoit que la définition soit présentée officiellement dans une version stable dans deux mois, lors de la conférence All Things Open.