Menu
Begeek
Navigation : 
  • Tech
    • Apple
    • Google
    • Android
    • Facebook
    • OpenAI
  • Pop Culture
    • Séries TV
    • Films
    • Netflix
    • incroyable.fr
  • Jeux Vidéo
    • PlayStation PS5
    • Xbox Series X
    • Play To Earn
  • Fintech
    • Crypto-monnaies
    • Revolut
    • Acheter du Bitcoin
En ce moment : 
  • Anime
  • Le Seigneur des Anneaux
  • Meta
  • Total Recall
  • Game Of Thrones

Du contenu pédopornographique découvert dans le plus grand ensemble de données d’images IA

Tech > IA
Par Morgan Fromentin,  publié le 21 décembre 2023 à 17h00.

L'organisme à but non lucratif responsable de la base de données LAION-5B l'a retirée par mesure de prudence.

Tl;dr

  • Des chercheurs de Stanford dévoilent du matériel d’abus sexuel d’enfants dans le dataset d’IA LAION
  • LAION suspend temporairement l’accès à ses datasets pour vérification
  • Plusieurs techniques utilisées par les chercheurs pour détecter le CSAM
  • Google et Stability AI ont également été formés à partir de ce dataset

Dataset compromis au Stanford Internet Observatory

Parmi les analyses récentes de la Stanford Internet Observatory, une a fait émerger une problématique majeure : « un dataset utilisé pour éduquer des outils de génération d’images par IA contient au moins 1 008 instances validées de contenu pédopornographique (CSAM) ».

La réaction de LAION

Face à cette situation, le non-profit LAION, créateur du dataset en question, a fait part de sa politique de tolérance zéro pour le contenu illégal. 404 Médias a rapporté la déclaration de LAION, dans laquelle l’organisation assure qu’elle prendra les mesures nécessaires pour assurer la vérification et la sécurité de ses datasets avant de les remettre à disposition.

Les outils de vérification du CSAM

En raison de l’illégalité de la visualisation de CSAM pour vérification aux États-Unis, les chercheurs ont dû recourir à plusieurs techniques pour son identification. Parmi ces méthodes, « la détection basée sur le hash perceptuel, la détection basée sur le hash cryptographique et l’analyse des plus proches voisins exploitant les intégrations d’images dans le dataset lui-même ».

Utilisation du dataset par Google et Stability AI

Google et Stability AI, ayant été formées à partir d’un sous-ensemble des données de LAION-5B, ont été mentionnées dans les conclusions de cette recherche. Stability AI a souligné, en réaction à ce rapport, son interdiction stricte de l’utilisation de ses systèmes pour des fins illégales, comme la création ou la modification de CSAM.

Le Récap
  • Tl;dr
  • Dataset compromis au Stanford Internet Observatory
  • La réaction de LAION
  • Les outils de vérification du CSAM
  • Utilisation du dataset par Google et Stability AI
En savoir plus
  • L’IA transforme le workflow vidéo et graphisme chez Adobe
  • Tesla relance Dojo3 pour booster ses IA
  • LEGO innove dans l’éducation avec l’IA et le codage pour enfants
Vous aimez nos contenus ?
Recevez chaque jour nos dernières publications gratuitement et directement dans votre boite mail
Recevoir la newsletter
  • Infos Légales
  • Contact
  • À propos
  • Archives
  • Antivirus
© 2026 - Tous droits réservés sur les contenus du site Begeek  - ADN Contents -