Quantcast
Channel: Next - Flux Complet
Viewing all articles
Browse latest Browse all 1069

LAION-5B revient sans contenus pédocriminels (promis), quid des autres problèmes ?

$
0
0
IA plus qu'à espérer
LAION-5B revient sans contenus pédocriminels (promis), quid des autres problèmes ?

La base de données d’images glanées sur le net LAION-5B est de nouveau disponible en ligne. Elle avait été retirée suite au signalement de contenus pédocriminels. L’association qui en est responsable promet de les avoir supprimés, sans pour autant évoquer d’autres problèmes comme le droit à l’image ou le Copyright.

LAION-5B, le jeu d’images d’entraînement gratuit le plus gros du monde créé par le professeur de lycée allemand Christoph Schuhmann, est de nouveau en ligne, annonce un communiqué, après un retrait en catastrophe en décembre dernier. LAION, l’association qui gère la base de données, avait décidé de la rendre inaccessible en ligne suite au signalement de chercheurs de Stanford qui y avaient identifié 3 226 liens vers des images pédocriminelles potentielles.

Dans son communiqué, elle affirmait qu’elle appliquait «  une politique de tolérance zéro à l’égard des contenus illégaux et, dans un souci de prudence, [retirait] temporairement les jeux de données de LAION pour [s’assurer] qu’ils sont sûrs avant de les republier ».

Deux versions, l’une expurgée des contenus NSFW

Huit mois après, l’association publie donc de nouveau LAION-5B expurgée, promet-elle, de tout lien vers des contenus pédocriminels. De fait, elle met en ligne deux nouvelles versions de la base de données.

Dans la première, appelée « Re-LAION-5B-research » l’association a enlevé les contenus pédocriminels identifiés et a ajouté un filtre qui doit assurer qu’aucun autre contenu de ce type n’est répertorié. Ce filtre s’appuie sur les associations de mots clés qui accompagnent le plus souvent les images pédocriminelles signalées.

Dans la seconde, « Re-LAION-5B research-safe » LAION a aussi supprimé « la majorité » des liens vers des images « NSFW »

Les deux versions sont accessibles sur Hugging Face seulement après s’être identifié sur la plateforme.

65 millions de photos pédocriminelles dans la version originale de LAION-5B

LAION explique que les deux filtres utilisés pour obtenir Re-LAION-5B-research ont conduit à la suppression de 1,12 % de la base d’origine de LAION-5B. Ce qui signifierait que 65 millions d’images sur les cinq milliards étaient des photos pédocriminels.

Pour la version « safe » expurgée donc des contenus NSFW, l’association a supprimé 3,04 % de sa base de données, soit 176 millions d’images enlevées.

Pour ce grand nettoyage, l’association explique avoir passé des partenariats avec l’Internet Watch Foundation (IWF), le Centre canadien de la protection de l’enfance (CCPE) et l’Observatoire d’Internet de Stanford.

Elle explique avoir utilisé les listes de hachages de liens et d’images fournies par ses partenaires datant de juillet dernier. Pour rappel, LAION-5B ne comporte pas les images en elles-mêmes, mais une liste d’URL auxquelles les internautes peuvent les retrouver en leur ajoutant des étiquettes.

Suppression des images signalées par Human Right Watch

LAION explique aussi avoir en outre supprimé « d’autres données relatives à la vie privée qui ne contenaient pas de contenu illégal » Les photos, signalées par la chercheuse de Human Right Watch, Hye Jung Han, étaient celles d’enfants brésiliens et australiens dont, selon la chercheuse, le consentement n’avait pas été obtenu. Sur les 399 signalées par l’ONG, LAION affirme que toutes ne contenaient pas des données sensibles mais, « par prudence » elle les a retirées de sa base de données.

Une réaction lente aux alertes

LAION fait donc un premier ménage dans sa base de données. Mais celui-ci arrive tard. Déjà en octobre 2021, les chercheurs Abeba Birhane, Vinay Uday Prabhu et Emmanuel Kahembwe signalaient (avant la hype de l’IA générative) qu’ils avaient repéré dans la version LAION-400M des « liens entre images et textes gênants et explicites de viol, de pornographie, de stéréotypes malveillants, d’insultes racistes et ethniques, ainsi que d’autres contenus extrêmement problématiques »

Dans son communiqué, l’association regrette de ne pas avoir été directement informée par l’Observatoire de l’Internet de Stanford de la publication de son rapport et d’avoir découvert ce dernier par voie de presse : « Cela a créé une situation regrettable pour la sécurité, car nous n’avons pu réagir qu’avec un retard considérable, bien que les problèmes aient été connus de l’Observatoire de l’Internet de Stanford plusieurs semaines, voire plusieurs mois auparavant » Elle demande que ce genre de signalement lui soit adressé directement.

Interrogé par ArsTechnica, l’auteur du rapport, David Thiel, assure que LAION était au courant de l’existence de contenu illégal dans sa base de données, car un signalement aurait été fait peu après sa sortie, en 2022.


Viewing all articles
Browse latest Browse all 1069

Trending Articles