Du contenu pédopornographique découvert dans le plus grand ensemble de données d’images IA
L'organisme à but non lucratif responsable de la base de données LAION-5B l'a retirée par mesure de prudence.
Tl;dr
- Des chercheurs de Stanford dévoilent du matériel d’abus sexuel d’enfants dans le dataset d’IA LAION
- LAION suspend temporairement l’accès à ses datasets pour vérification
- Plusieurs techniques utilisées par les chercheurs pour détecter le CSAM
- Google et Stability AI ont également été formés à partir de ce dataset
Dataset compromis au Stanford Internet Observatory
Parmi les analyses récentes de la Stanford Internet Observatory, une a fait émerger une problématique majeure : « un dataset utilisé pour éduquer des outils de génération d’images par IA contient au moins 1 008 instances validées de contenu pédopornographique (CSAM) ».
La réaction de LAION
Face à cette situation, le non-profit LAION, créateur du dataset en question, a fait part de sa politique de tolérance zéro pour le contenu illégal. 404 Médias a rapporté la déclaration de LAION, dans laquelle l’organisation assure qu’elle prendra les mesures nécessaires pour assurer la vérification et la sécurité de ses datasets avant de les remettre à disposition.
Les outils de vérification du CSAM
En raison de l’illégalité de la visualisation de CSAM pour vérification aux États-Unis, les chercheurs ont dû recourir à plusieurs techniques pour son identification. Parmi ces méthodes, « la détection basée sur le hash perceptuel, la détection basée sur le hash cryptographique et l’analyse des plus proches voisins exploitant les intégrations d’images dans le dataset lui-même ».
Utilisation du dataset par Google et Stability AI
Google et Stability AI, ayant été formées à partir d’un sous-ensemble des données de LAION-5B, ont été mentionnées dans les conclusions de cette recherche. Stability AI a souligné, en réaction à ce rapport, son interdiction stricte de l’utilisation de ses systèmes pour des fins illégales, comme la création ou la modification de CSAM.