Quantcast
Channel: Next - Flux Complet
Viewing all articles
Browse latest Browse all 1069

OpenAI a détruit les jeux de données de livres sur lesquels elle a entrainé ses premiers modèles

$
0
0
Catch me if you can
Deux requins étiquetés par portions avec les marques des entreprises d'IA génératives nagent dans l'océan

Dans le procès qui oppose l’organisation américaine Authors Guild à OpenAI, des documents descellés révèlent que l’entreprise de Sam Altman a affirmé à la FTC avoir détruit toutes ses copies des jeux de données contenant des milliers de livres sur lesquels elle a entrainé ses grands modèles de langage. Pour l’Authors Guild, OpenAI a détruit une preuve directe du contenu copyrighté qu’elle a utilisé pour entrainer ses modèles.

OpenAI ne voulait pas que ces documents soient publiés. Mais finalement, la justice américaine n’a pas suivi l’avis de l’entreprise. Ils proviennent d’un des multiples procès intentés contre OpenAI pour violation de copyright lors de l’entrainement de ses modèles de langage. Ces documents révèlent que l’entreprise a détruit des jeux de données visés par la plainte, comme l’a découvert Business Insider.

Plainte de nombreux auteurs américains

L'organisation américaine Authors Guild, qui rassemble environ 9 000 membres, a porté plainte en septembre 2023 contre l'entreprise aux côtés d'auteurs célèbres comme George R.R. Martin, Michael Connelly, David Baldacci, Mary Bly, Sylvia Day ou encore Roxana Robinson (pdf). Dans ce document, les plaignants ciblent en particulier l'utilisation de trois jeux de données utilisés par l'entreprise : « OpenAI admet que parmi les jeux de données "d'entraînement" qu'elle a utilisés pour "entraîner" le modèle [GPT-3] figuraient "Common Crawl" et deux "corpus de livres basés sur l'internet" de "haute qualité" qu'elle appelle "Books1" et "Books2" », citant un article scientifique des chercheurs de l'entreprise. Mais, si le contenu de Common Crawl est connu (car disponible en accès libre), ceux de Books1 et Books2 ne le sont pas. En effet, ils ont été créés en interne à OpenAI pour entrainer ses modèles de façon unique et notamment GPT-3, le grand modèle de langage sur lequel l'entreprise s'est appuyée, à l'époque, pour sortir ChatGPT.

Des pièces à conviction détruites ?

Après plusieurs mois infructueux de recherche d'information sur Books1 et Books2, car OpenAI se retranchait derrière leur « confidentialité », l'Authors Guild a pu obtenir de l'entreprise de Sam Altman « qu'elle avait détruit toutes ses copies de books1 et books2, et que les deux chercheurs d'OpenAI responsables de la création de ces ensembles de données ne sont plus employés » par la société (PDF). Cette destruction aurait eu lieu mi 2022. Pour l'association de défense des droits des auteurs américains, « étant donné qu'OpenAI a détruit les preuves directes du contenu des books 1 et 2, ces anciens employés sont d'une importance cruciale dans cette affaire ». Elle a donc demandé à l'entreprise leur identité et l'accuse de ne pas donner suffisamment d'information pour les identifier. Les avocats de l'Authors Guild en profitent pour demander l'accès aux réponses d'OpenAI à la Federal Trade Commission (FTC) lors de différentes enquêtes de l'agence indépendante américaine. Celles-ci pourraient, en effet, contenir les informations que l'organisation cherche.

Destruction « avant litige »

Mais OpenAI se défend (PDF) en expliquant qu'elle a apporté à l'Authors Guild des informations sur ces deux chercheurs et qu'elle est prête à répondre à ses questions si elles n'étaient pas suffisamment claires. Elle ajoute que « les jeux de données Books1 et Books2 ont été supprimés pour cause de non-utilisation avant qu'un litige n'ait été intenté contre OpenAI, et qu'OpenAI a activement enquêté pour déterminer si elle pouvait trouver d'autres copies des jeux de données ou d'autres documents à partir desquels les jeux de données peuvent être reconstruits ». OpenAI s'oppose donc à ce que l'Authors Guild puisse accéder à ses réponses données à la FTC dans des enquêtes se concentrant sur les données personnelles et les aspects liés au consommateur, informations « sans rapport avec la présente affaire ». Dans une déclaration citée par Business Insider, OpenAI affirme que « les modèles qui alimentent ChatGPT et notre API aujourd'hui n'ont pas été développés à l'aide de ces jeux de données » et ajoute que « ces jeux de données, créés par d'anciens employés qui ne font plus partie d'OpenAI, ont été utilisés pour la dernière fois en 2021 et supprimés pour cause de non-utilisation en 2022 ». Il n'en reste pas moins que, dans sa réponse récente à la plainte du New York Times, OpenAI affirmait qu' « étant donné que le copyright couvre aujourd’hui pratiquement toutes les formes d’expression humaine – y compris les articles de blog, les photographies, les messages de forum, les bouts de code de logiciel et les documents gouvernementaux – il serait impossible d’entraîner les meilleurs modèles d’IA actuels sans utiliser des documents protégés par le copyright ».

Viewing all articles
Browse latest Browse all 1069

Trending Articles