Une étude révèle que ChatGPT-5 se trompe une fois sur quatre et explique pourquoi

Image d'illustration. ChatGPTADN
Selon une récente étude, ChatGPT-5 commetrait des erreurs dans environ un quart de ses réponses. Les chercheurs se sont penchés sur les causes de ces inexactitudes, mettant en lumière certaines limites actuelles du modèle d’intelligence artificielle.
Tl;dr
- Les IA hallucinent à cause de leurs méthodes d’évaluation.
- Les modèles récents ne sont pas moins sujets aux erreurs.
- Récompenser l’incertitude améliorerait la fiabilité des chatbots.
La persistance des hallucinations chez les assistants IA
Il y a peu, alors que je menais une séance de réflexion avec ChatGPT, j’ai été surpris par un détour inattendu : le chatbot s’est lancé dans une histoire fantastique totalement déconnectée du sujet. Amusant, certes, mais révélateur d’un phénomène bien connu : les « hallucinations » de l’intelligence artificielle. Plus étonnant encore, la machine affichait une assurance déroutante face à son erreur — une faiblesse qui demeure au cœur des assistants IA modernes.
Pourquoi les modèles continuent-ils d’inventer des réponses ?
Une récente étude signée par OpenAI s’intéresse à l’origine profonde de ces égarements. Les chercheurs pointent du doigt un biais structurel lié aux systèmes d’évaluation et aux classements (« benchmarks ») : lors des tests, les modèles se voient pénalisés s’ils admettent leur ignorance. Résultat : au lieu de dire « je ne sais pas », ils préfèrent risquer une réponse fausse — quitte à tromper l’utilisateur. Dans la vie quotidienne, ces approximations passent parfois inaperçues ; en revanche, pour des sujets sensibles comme la santé ou la finance, le danger est réel.
Les nouveaux modèles ne font pas mieux
On pourrait penser que les versions récentes corrigent ces travers… mais il n’en est rien. Selon l’étude d’OpenAI, des modèles réputés pour leur capacité de raisonnement tels que o3 ou o4-mini, produisent même davantage d’assertions – donc plus de risques d’erreurs manifestes. Le progrès technique ne rime donc pas toujours avec humilité algorithmique : un modèle peut être plus sophistiqué sans reconnaître plus facilement ses propres limites.
Pistes pour limiter les erreurs et rôle de l’utilisateur
Les spécialistes avancent plusieurs solutions concrètes afin de limiter ces hallucinations. Parmi elles :
- Modifier les critères d’évaluation, en valorisant l’honnêteté sur l’incertitude plutôt que la simple affirmation.
- Encourager la citation des sources fiables, surtout lorsque les réponses semblent douteuses.
- Sensibiliser les utilisateurs, qui doivent considérer les propositions IA comme des pistes — non comme parole d’Évangile.
À terme, on pourrait voir émerger des assistants plus prudents : moins affirmatifs, mais aussi moins enclins à commettre des erreurs dommageables. Un progrès qui ne dispense toutefois pas de faire preuve d’esprit critique face à ces nouveaux outils numériques — qu’il s’agisse de ChatGPT, Gemini, Claude, ou encore Grok.
Si l’intelligence artificielle continue de nous surprendre, elle n’a pas fini non plus de nous rappeler qu’elle reste… perfectible.