Du contenu pédopornographique découvert dans le plus grand ensemble de données d’images IA

Par Morgan Fromentin, publié le 21 décembre 2023 à 17h00.

L'organisme à but non lucratif responsable de la base de données LAION-5B l'a retirée par mesure de prudence.

Tl;dr

Des chercheurs de Stanford dévoilent du matériel d’abus sexuel d’enfants dans le dataset d’IA LAION
LAION suspend temporairement l’accès à ses datasets pour vérification
Plusieurs techniques utilisées par les chercheurs pour détecter le CSAM
Google et Stability AI ont également été formés à partir de ce dataset

Dataset compromis au Stanford Internet Observatory

Parmi les analyses récentes de la Stanford Internet Observatory, une a fait émerger une problématique majeure : « un dataset utilisé pour éduquer des outils de génération d’images par IA contient au moins 1 008 instances validées de contenu pédopornographique (CSAM) ».

La réaction de LAION

Face à cette situation, le non-profit LAION, créateur du dataset en question, a fait part de sa politique de tolérance zéro pour le contenu illégal. 404 Médias a rapporté la déclaration de LAION, dans laquelle l’organisation assure qu’elle prendra les mesures nécessaires pour assurer la vérification et la sécurité de ses datasets avant de les remettre à disposition.

Les outils de vérification du CSAM

En raison de l’illégalité de la visualisation de CSAM pour vérification aux États-Unis, les chercheurs ont dû recourir à plusieurs techniques pour son identification. Parmi ces méthodes, « la détection basée sur le hash perceptuel, la détection basée sur le hash cryptographique et l’analyse des plus proches voisins exploitant les intégrations d’images dans le dataset lui-même ».

Utilisation du dataset par Google et Stability AI

Google et Stability AI, ayant été formées à partir d’un sous-ensemble des données de LAION-5B, ont été mentionnées dans les conclusions de cette recherche. Stability AI a souligné, en réaction à ce rapport, son interdiction stricte de l’utilisation de ses systèmes pour des fins illégales, comme la création ou la modification de CSAM.

Le Récap

Tl;dr
Dataset compromis au Stanford Internet Observatory
La réaction de LAION
Les outils de vérification du CSAM
Utilisation du dataset par Google et Stability AI

En savoir plus