Menu
Begeek.fr
Obtenir l’application
Navigation : 
  • Tech
    • Apple
    • Google
    • Android
    • Facebook
  • Pop Culture
    • Netflix
  • Jeux Vidéo
    • PS5
    • Xbox Series X
    • Play To Earn
  • Fintech
    • Crypto-monnaies
    • Les meilleures cartes bancaire Bitcoin
    • Les meilleurs wallet crypto
    • Créer son RIG de minage
    • Cloud mining et stacking
En ce moment : 
  • Crypto : guide du débutant
  • Sorare : le guide
  • Meilleures exchanges Crypto

Le MIT découvre de nombreuses erreurs dans les jeux de données fournis aux intelligences artificielles

Tech > Intelligence artificielle > MIT
Par Morgan Fromentin,  publié le 29 mars 2021 à 11h00.

Les intelligences artificielles ont besoin de données pour pouvoir "apprendre". Et si ces données sont erronées, cela peut tout mettre à mal. Des erreurs sont pourtant bel et bien présentes, selon une étude du MIT.

Une équipe menée par des experts en informatique du Massachusetts Institute of Technology (MIT) a examiné dix des jeux de données les plus utilisés pour tester les systèmes de machine learning. Elle a découvert qu’environ 3,4 % des données étaient incorrectes ou mal identifiées, ce qui pourrait poser des problèmes dans les systèmes d’intelligence artificielle qui utilisent ces jeux de données.

Des chercheurs du MIT s’intéressent aux erreurs dans les jeux des données

Les jeux de données en question, qui ont été cité plus de 100 000 fois dans des publications scientifiques, comprennent des erreurs basées sur le texte issues de newsgroups, d’Amazon et IMDb. Des erreurs sont apparues sur des critiques de produit Amazon, par exemple, identifiées comme positives alors qu’elles étaient en réalité négatives et vice-versa.

confiées aux intelligences artificielles

Certaines des erreurs basées sur les images proviennent de mélange dans les espèces animales. D’autres d’une mauvaise identification photo avec des objets de moindre importance (“bouteille d’eau” à la place du vélo juste à côté, par exemple). Un exemple particulièrement intéressant a été remonté, un bébé a été identifié comme un mamelon.

L’un des jeux de données était autour de l’audio de vidéos YouTube. Un clip d’un YouTuber parlant à la caméra pendant 3 minutes et demie était identifié comme “cloches d’église”, et l’on ne pouvait pourtant en entendre une que dans les 30 dernières secondes. Une autre erreur résultait d’un souci de classification, Bruce Springsteen était identifié comme un orchestre.

Pour mettre au jour ces erreurs, les chercheurs ont utilisé un framework baptisé “confident learning”, lequel examine les données pour trouver précisément d’éventuelles incohérences. Les experts ont ensuite validé ces erreurs en utilisant le Mechanical Turk et découvert qu’environ 54 % des données que l’algorithme avait détectées comprenaient effectivement des labels incorrects. Les chercheurs ont trouvé que le jeu de test QuickDraw était celui qui comprenait le plus grand nombre d’erreurs, environ 5 millions (soit 10 % de sa totalité). L’équipe a créé un site web permettant à tout un chacun de visualiser ces erreurs.

Certaines d’entre elles sont relativement mineures, d’autres sont étonnantes – un zoom sur une touche de clavier de Mac identifié comme “clavier d’ordinateur” reste correct -. Parfois, l’approche du “confident learning” se trompe elle aussi, identifiant comme erreur une image pourtant correcte.

Si les labels sont ne serait-ce qu’un peu déviant, cela pourrait avoir de grandes conséquences sur les systèmes de machine learning. Si une intelligence artificielle ne peut faire la différence entre une épicerie et un panier de crabes, il sera difficile d’espérer pouvoir leur faire confiance.

Le Récap
  • Des chercheurs du MIT s’intéressent aux erreurs dans les jeux des données
  • confiées aux intelligences artificielles
En savoir plus
  • NVIDIA dévoile AI Foundations, un service cloud totalement axé autour de l’intelligence artificielle
  • Microsoft intègre l’IA de génération d’images DALL-E dans Bing et Edge
  • ChatGPT brièvement débranché après un bug révélant les historiques de conversation des utilisateurs
Vous aimez nos contenus ?
Recevez chaque jour nos dernières publications gratuitement et directement dans votre boite mail
Recevoir la newsletter
  • Infos Légales
  • Contact
  • À propos
  • Données personnelles
  • Archives
  • Musique en ligne
© 2023 - Tous droits réservés sur les contenus du site Begeek.fr  - ADN Contents -