OpenAI a détruit les jeux de données de livres sur lesquels elle a entrainé ses premiers modèles

Catch me if you can

Deux requins étiquetés par portions avec les marques des entreprises d'IA génératives nagent dans l'océan

Dans le procès qui oppose l’organisation américaine Authors Guild à OpenAI, des documents descellés révèlent que l’entreprise de Sam Altman a affirmé à la FTC avoir détruit toutes ses copies des jeux de données contenant des milliers de livres sur lesquels elle a entrainé ses grands modèles de langage. Pour l’Authors Guild, OpenAI a détruit une preuve directe du contenu copyrighté qu’elle a utilisé pour entrainer ses modèles.

OpenAI ne voulait pas que ces documents soient publiés. Mais finalement, la justice américaine n’a pas suivi l’avis de l’entreprise. Ils proviennent d’un des multiples procès intentés contre OpenAI pour violation de copyright lors de l’entrainement de ses modèles de langage. Ces documents révèlent que l’entreprise a détruit des jeux de données visés par la plainte, comme l’a découvert Business Insider.

Plainte de nombreux auteurs américains

L'organisation américaine Authors Guild, qui rassemble environ 9 000 membres, a porté plainte en septembre 2023 contre l'entreprise aux côtés d'auteurs célèbres comme George R.R. Martin, Michael Connelly, David Baldacci, Mary Bly, Sylvia Day ou encore Roxana Robinson (pdf). Dans ce document, les plaignants ciblent en particulier l'utilisation de trois jeux de données utilisés par l'entreprise : « OpenAI admet que parmi les jeux de données "d'entraînement" qu'elle a utilisés pour "entraîner" le modèle [GPT-3] figuraient "Common Crawl" et deux "corpus de livres basés sur l'internet" de "haute qualité" qu'elle appelle "Books1" et "Books2" », citant un article scientifique des chercheurs de l'entreprise. Mais, si le contenu de Common Crawl est connu (car disponible en accès libre), ceux de Books1 et Books2 ne le sont pas. En effet, ils ont été créés en interne à OpenAI pour entrainer ses modèles de façon unique et notamment GPT-3, le grand modèle de langage sur lequel l'entreprise s'est appuyée, à l'époque, pour sortir ChatGPT.

Des pièces à conviction détruites ?

Après plusieurs mois infructueux de recherche d'information sur Books1 et Books2, car OpenAI se retranchait derrière leur « confidentialité », l'Authors Guild a pu obtenir de l'entreprise de Sam Altman « qu'elle avait détruit toutes ses copies de books1 et books2, et que les deux chercheurs d'OpenAI responsables de la création de ces ensembles de données ne sont plus employés » par la société (PDF). Cette destruction aurait eu lieu mi 2022. Pour l'association de défense des droits des auteurs américains, « étant donné qu'OpenAI a détruit les preuves directes du contenu des books 1 et 2, ces anciens employés sont d'une importance cruciale dans cette affaire ». Elle a donc demandé à l'entreprise leur identité et l'accuse de ne pas donner suffisamment d'information pour les identifier. Les avocats de l'Authors Guild en profitent pour demander l'accès aux réponses d'OpenAI à la Federal Trade Commission (FTC) lors de différentes enquêtes de l'agence indépendante américaine. Celles-ci pourraient, en effet, contenir les informations que l'organisation cherche.

Destruction « avant litige »

Mais OpenAI se défend (PDF) en expliquant qu'elle a apporté à l'Authors Guild des informations sur ces deux chercheurs et qu'elle est prête à répondre à ses questions si elles n'étaient pas suffisamment claires. Elle ajoute que « les jeux de données Books1 et Books2 ont été supprimés pour cause de non-utilisation avant qu'un litige n'ait été intenté contre OpenAI, et qu'OpenAI a activement enquêté pour déterminer si elle pouvait trouver d'autres copies des jeux de données ou d'autres documents à partir desquels les jeux de données peuvent être reconstruits ». OpenAI s'oppose donc à ce que l'Authors Guild puisse accéder à ses réponses données à la FTC dans des enquêtes se concentrant sur les données personnelles et les aspects liés au consommateur, informations « sans rapport avec la présente affaire ». Dans une déclaration citée par Business Insider, OpenAI affirme que « les modèles qui alimentent ChatGPT et notre API aujourd'hui n'ont pas été développés à l'aide de ces jeux de données » et ajoute que « ces jeux de données, créés par d'anciens employés qui ne font plus partie d'OpenAI, ont été utilisés pour la dernière fois en 2021 et supprimés pour cause de non-utilisation en 2022 ». Il n'en reste pas moins que, dans sa réponse récente à la plainte du New York Times, OpenAI affirmait qu' « étant donné que le copyright couvre aujourd’hui pratiquement toutes les formes d’expression humaine – y compris les articles de blog, les photographies, les messages de forum, les bouts de code de logiciel et les documents gouvernementaux – il serait impossible d’entraîner les meilleurs modèles d’IA actuels sans utiliser des documents protégés par le copyright ».

OpenAI a détruit les jeux de données de livres sur lesquels elle a entrainé ses premiers modèles

Catch me if you can

Plainte de nombreux auteurs américains

Des pièces à conviction détruites ?

Destruction « avant litige »

Trending Articles

Celleneuve - Isis Hammam

IPEF (liste d'aptitude)

Libreville : Studio à louer au ront point de nzeng ayong (Libreville)

Dakar : studio a louer a ouest foire au 2eme etage (Dakar) 100 000 FCFA

SUNU YOONOU ZIARRE GENERALE - Comment faire sa Ziarra? Les invocations et la...

Location maison à Hodan 1

[Thermique] Code erreur E60 chaudière Geminox FCX22

enregistrement / erreur F3416-1

PowerShell et Microsoft Graph : comment envoyer des e-mails avec...

Yvelines. Disparition inquiétante à Vélizy-Villacoublay : avez-vous vu...

Table de mixage ETP MPX 4005 - 20 €

Contribution n° 01/2024 du 13 juin 2024 concernant le projet de délibération...

Rufisque : Salle de séminaire

douchka dinant

Vincennes - R1C4 - Vendredi 18 Octobre 2024 - Tiercé-Quarté-Quinté

[QGIS] Re: QGIS 3.0.3: import fichier texte délimité

Recensement au titre du port sec à Tanghin-Dassouri : L'état nominatif des...

AMPLiS ANALOGIQUE STEREO D'EXCEPTION EAA PA 1000. Révisés, avec Factures. -...

Les sims 4 fichier scratch emdomagé

Le Prince d'Egypte [FRENCH DVDRiP] | Multi Liens