Quantcast
Channel: Next - Flux Complet
Viewing all articles
Browse latest Browse all 1069

Pour entrainer ses IA, NVIDIA récupèrerait des millions de vidéos sans autorisation

$
0
0
Données de la discorde
Pour entrainer ses IA, NVIDIA récupèrerait des millions de vidéos sans autorisation

NVIDIA utiliserait massivement des vidéos récupérées sur Internet (YouTube, Netflix…) pour entrainer ses modèles d’IA, sans autorisation. L’entreprise n’est pas la seule dans ce cas, d’autres ont déjà été épinglées pour un tel comportement. Mais dans la course effrénée actuelle de l’intelligence artificielle, il faut aller toujours plus vite et la politique actuelle serait donc de « ne pas demander la permission ».

404 Media a récupéré de nombreux documents internes de NVIDIA qui montrent comment l’entreprise a développé et entrainé un modèle de fondation d’intelligence artificielle. Pour cela, l’entreprise aurait « extrait des vidéos de YouTube et de plusieurs autres sources ». Le modèle n’a pas encore été dévoilé, mais il pourrait servir à améliorer les produits NVIDIA existants.

Sans données, pas d’intelligence artificielle

Nous avons de cesse de le répéter : pour entrainer une intelligence artificielle, il faut des quantités astronomiques de données (et suffisamment de puissance de calcul pour les traiter). Nous l’avons vu avec notre exemple sur l’entrainement d’une IA en 10 lignes de code. Il faut non seulement des données, mais également savoir à quoi elles correspondent. On parle de données étiquetées ou annotées.

Dans l’intelligence artificielle, on retrouve donc deux piliers : les algorithmes et les données de qualité. Il existe des sources libres bien sûr, mais également d’autres protégées par des droits d’auteur. Pour la vidéo, des plateformes comme YouTube et Netflix sont des sources importantes. Cependant, récupérer les vidéos pour entrainer des IA est généralement interdit par les conditions générales.

NVIDIA en « total conformité », 404 Media raconte une autre histoire…

NVIDIA affirme à nos confrères que ses pratiques en la matière sont en « totale conformité » avec la loi sur les droits d’auteur. Selon les documents consultés par 404 Media, lorsqu’un employé soulevait cette question sur des vidéos YouTube et d’autres sources (notamment universitaires), les responsables auraient affirmé que l’entreprise avait les autorisations nécessaires pour utiliser ces contenus.

Selon un ancien de NVIDIA interrogé par notre confrère et souhaitant garder l’anonymat, « les employés étaient invités à extraire des vidéos de Netflix, de YouTube et d’autres sources pour former un modèle d’intelligence artificielle » pour différentes applications, notamment NVIDIA Omniverse et les systèmes de voiture autonome.

Des données en quantité : « 80 ans de vidéos par jour »

Pour récupérer les vidéos, « les employés utilisent un récupérateur open source de vidéos YouTube appelé yt-dlp, combiné à des machines virtuelles qui actualisent les adresses IP pour éviter d’être bloquées par YouTube », explique 404 Media. D’autres sources comme Netflix seraient aussi utilisées, mais YouTube serait le principal centre d’intérêt. Au total, NVIDIA aurait « téléchargé 80 ans de vidéos par jour ».

Interrogé par nos confrères, un porte-parole de Google renvoie à l’histoire d’OpenAI et de GPT-4 entrainé avec des vidéos YouTube. Neal Mohan (CEO) de YouTube expliquait alors qu’entraîner une IA avec des données de sa plateforme était une violation claire de ses conditions d’utilisation. Chez Netflix, le porte-parole affirme à nos confrères que la plateforme n’a pas d’accord avec NVIDIA pour utiliser ses contenus et qu’elle n’autorise pas le scraping.

« N’importe qui est libre d’apprendre des faits, des idées »

De son côté, NVIDIA assure respecter « les droits de tous les créateurs de contenu » et se dit être en pleine conformité avec la loi sur les droits d’auteur. On imagine mal l’entreprise affirmer le contraire.

« La loi sur les droits d’auteur protège des expressions particulières, mais pas des faits, des idées, des données ou des informations. N’importe qui est libre d’apprendre des faits, des idées, des données ou des informations d’une autre source et de les utiliser pour créer ses propres formulations. L’usage raisonnable protège aussi la possibilité d’utiliser une œuvre à des fins de transformation, comme la formation de modèles ».

Toujours selon nos confrères, des discussions internes font état d’ensembles de données provenant du monde académique, notamment HD-VG-130M, dont la licence précise que les données ne peuvent être utilisées que dans le monde académique.

NVIDIA pourrait utiliser ces données dans ce but, mais les discussions internes « montrent clairement », selon 404 Media, que les modèles d’IA résultant avaient bien pour but de « renforcer les produits commerciaux de NVIDIA dans un secteur de l’IA hautement concurrentiel ».

C’est quoi un « usage raisonnable » ?

Une des questions est de savoir si l’entrainement d’une intelligence artificielle est une « transformation » suffisamment importante pour entrer dans le cadre d’un « fair use » ou usage raisonnable. Pour Robert Mahari du MIT, interrogé par nos confrères, le système juridique n’aurait pas encore défini si l’utilisation de données d’entraînement pour développer un modèle d’IA est suffisamment transformateur.

Le sujet est compliqué : « Mon point de vue (partiellement résumé dans cet article de Science) est qu’il se peut en effet que l’entraînement d’un modèle d’IA constitue un usage raisonnable, mais cela ne signifie pas que la génération de résultats similaires à des éléments spécifiques des données d’entraînement n’est pas une infraction ». Pour rappel, les modèles peuvent parfois recracher les données d’entrainement, permettant alors de remonter à une des sources.

Agir d’abord, demander ensuite ?

404 Media conclut que, selon ses investigations, la politique actuelle des grandes entreprises de l’intelligence artificielle serait de « ne pas demander la permission » lorsqu’il s’agit de rassembler du contenu et de l’utiliser pour des entrainements. De toute façon, une fois le mal fait, il ne reste plus grand-chose à protéger…

« Les fuites de conversations internes comme celles-ci sont le seul moyen pour quiconque de savoir si son travail est utilisé pour entrainer un modèle qui rapporte à une entreprise comme NVIDIA – Runway ou OpenAI – des milliards de dollars », expliquent nos confrères.

Les autres exemples ne doivent rien au hasard, les deux entreprises ont aussi été prises la main dans le sachet de friandises données personnelles (qu’elles consomment de manière boulimique).

Il y a quelques semaines, on apprenait, par exemple, que les sous-titres de milliers de vidéos YouTube étaient utilisés sans autorisation par des entreprises comme Apple, Anthropic, NVIDIA et Salesforce. Une histoire parmi tellement d’autres.

Et maintenant ?

La course à l’intelligence artificielle incite les entreprises à aller toujours plus vite pour être les premières et dominer un marché hautement lucratif. Apple Intelligence en a fait les frais en arrivant en retard sur la concurrence et en devant s’appuyer sur des partenaires pour proposer sa propre solution. Et, comme expliqué au début, pas d’intelligence artificielle sans données.

Internet étant le plus grand lac de données mondial, il est facile d’aller y piocher dedans des informations pour avancer rapidement. Les données sont ensuite broyées pour former des IA qui ne disent pas directement comment elles ont été mises au point, rendant la piste difficile à suivre.

404 Media a raison : il faut en arriver à des histoires comme celle du jour, ou bien celles d’OpenAI, de Runway et de bien d’autres entreprises pour découvrir le pot aux roses. Et encore, la question est maintenant de savoir : que va-t-il se passer ?


Viewing all articles
Browse latest Browse all 1069

Trending Articles