Le MIT découvre de nombreuses erreurs dans les jeux de données fournis aux intelligences artificielles
Les intelligences artificielles ont besoin de données pour pouvoir "apprendre". Et si ces données sont erronées, cela peut tout mettre à mal. Des erreurs sont pourtant bel et bien présentes, selon une étude du MIT.
Une équipe menée par des experts en informatique du Massachusetts Institute of Technology (MIT) a examiné dix des jeux de données les plus utilisés pour tester les systèmes de machine learning. Elle a découvert qu’environ 3,4 % des données étaient incorrectes ou mal identifiées, ce qui pourrait poser des problèmes dans les systèmes d’intelligence artificielle qui utilisent ces jeux de données.
Des chercheurs du MIT s’intéressent aux erreurs dans les jeux des données
Les jeux de données en question, qui ont été cité plus de 100 000 fois dans des publications scientifiques, comprennent des erreurs basées sur le texte issues de newsgroups, d’Amazon et IMDb. Des erreurs sont apparues sur des critiques de produit Amazon, par exemple, identifiées comme positives alors qu’elles étaient en réalité négatives et vice-versa.
confiées aux intelligences artificielles
Certaines des erreurs basées sur les images proviennent de mélange dans les espèces animales. D’autres d’une mauvaise identification photo avec des objets de moindre importance (« bouteille d’eau » à la place du vélo juste à côté, par exemple). Un exemple particulièrement intéressant a été remonté, un bébé a été identifié comme un mamelon.
L’un des jeux de données était autour de l’audio de vidéos YouTube. Un clip d’un YouTuber parlant à la caméra pendant 3 minutes et demie était identifié comme « cloches d’église », et l’on ne pouvait pourtant en entendre une que dans les 30 dernières secondes. Une autre erreur résultait d’un souci de classification, Bruce Springsteen était identifié comme un orchestre.
Pour mettre au jour ces erreurs, les chercheurs ont utilisé un framework baptisé « confident learning », lequel examine les données pour trouver précisément d’éventuelles incohérences. Les experts ont ensuite validé ces erreurs en utilisant le Mechanical Turk et découvert qu’environ 54 % des données que l’algorithme avait détectées comprenaient effectivement des labels incorrects. Les chercheurs ont trouvé que le jeu de test QuickDraw était celui qui comprenait le plus grand nombre d’erreurs, environ 5 millions (soit 10 % de sa totalité). L’équipe a créé un site web permettant à tout un chacun de visualiser ces erreurs.
Certaines d’entre elles sont relativement mineures, d’autres sont étonnantes – un zoom sur une touche de clavier de Mac identifié comme « clavier d’ordinateur » reste correct -. Parfois, l’approche du « confident learning » se trompe elle aussi, identifiant comme erreur une image pourtant correcte.
Si les labels sont ne serait-ce qu’un peu déviant, cela pourrait avoir de grandes conséquences sur les systèmes de machine learning. Si une intelligence artificielle ne peut faire la différence entre une épicerie et un panier de crabes, il sera difficile d’espérer pouvoir leur faire confiance.