Une simple phrase sur Reddit peut faire dérailler une recherche avec l’IA

Par Jordan Servan, publié le 17 juin 2026 à 12h00.

Tech

Image d'illustration. RedditADN

Des chercheurs montrent qu’un commentaire Reddit minuscule peut pousser une IA à recommander une arnaque. Le vrai souci, c’est à quel point le mécanisme semble facile.

En bref

Les moteurs de recherche IA (comme ChatGPT ou Gemini) récupèrent des contenus publics (Reddit, Wikipedia, Quora, YouTube), ce qui les expose à des sources facilement manipulables.
Des chercheurs ont montré qu’une injection de quelques mots dans une page peut influencer fortement les réponses générées et pousser les IA à citer de fausses informations.
Les tests montrent que les systèmes actuels sont vulnérables à ce type de manipulation, sans solution simple, ce qui oblige à vérifier les sources des réponses IA.

Quand vous demandez à une IA la meilleure appli, un resto fiable, un service de dépannage ou comment résilier un abonnement pénible, vous pensez gagner du temps. C’est justement là que le piège se referme. Une prépublication de Cornell Tech, repérée d’abord par 404 Media, montre qu’un tout petit ajout dans un contenu communautaire peut faire remonter une recommandation bidon. Et ça, franchement, ce n’est pas un bug anecdotique.

Les requêtes les plus banales sont aussi les plus exposées

Le souci vient de la matière première. Les outils de recherche IA, y compris les modes deep research de ChatGPT ou Gemini, vont chercher des pages en direct, les lisent, puis recollent une réponse avec des citations. Or une part non négligeable de ces sources vient de plateformes où n’importe qui peut poster, comme Reddit, Wikipedia, Quora ou YouTube.

Dans les tests, entre 17 % et 23 % des pages récupérées par ces agents venaient de ce type de sites. Et un seul thread Reddit populaire pouvait réapparaître dans beaucoup de requêtes proches sur le même sujet. Résultat ? Si vous intoxiquez une discussion souvent citée, vous ne polluez pas juste une question, vous pouvez orienter toute une famille de réponses.

Treize mots suffisent parfois à tordre une réponse

Les chercheurs, Tingwei Zhang, Harold Triedman et Vitaly Shmatikov, ont baptisé leur attaque WARP, pour Web Agent Retrieval Poisoning. L’idée est brutale de simplicité, ajouter un court texte promotionnel à une source que l’IA aime déjà consulter.

Dans leurs essais, environ 13 mots ajoutés à une seule source ont suffi pour faire citer un produit inventé dans 38 % à 51 % des cas où cette source était récupérée. En répartissant l’appât sur plusieurs discussions, ils sont montés jusqu’à 62 %. Les exemples sentent presque la blague, un faux resto baptisé Sol Azteca, une appli de rencontre fictive nommée SilverPath, une crypto bidon, ou un service douteux pour résilier Xfinity.

Tous les outils ne réagissent pas pareil

Petit point important quand même, l’attaque complète n’a pas été menée en conditions réelles contre les gros services commerciaux. L’équipe a travaillé dans un sandbox, pour éviter de polluer le web, et a testé de bout en bout trois agents open source, STORM, Co-STORM et OmniThink.

Pour les outils grand public, les chercheurs ont surtout mesuré à quelle fréquence ils citaient du contenu généré par les utilisateurs. Là, l’écart est net. Gemini Deep Research en citait autour de 12%, contre à peine 0,4% pour OpenAI Deep Research, qui semble filtrer ce type de source de façon bien plus agressive. Donc non, ce n’est pas la preuve qu’un chatbot précis s’est déjà fait avoir en live. Mais la faiblesse, elle, est bien réelle.

Le plus agaçant, c’est qu’il n’y a pas de parade simple

Les chercheurs ont aussi testé les défenses évidentes, bloquer les sites communautaires, filtrer les sources avant usage, scanner la réponse finale. Rien n’a vraiment marché sans dégrader la qualité des réponses. Pire, les détecteurs de texte artificiel se plantent, parce que le texte injecté est parfois plus fluide que les vrais commentaires humains.

Du coup, le réflexe utile est assez basique, traitez les recommandations d’une IA comme une piste, pas comme un verdict. Cliquez les citations. Si une marque inconnue sort de nulle part, vérifiez ailleurs. Un seul commentaire Reddit comme source, c’est un énorme drapeau rouge. Reddit rappelle de son côté lutter depuis longtemps contre le spam et les bots, mais les chercheurs estiment que le problème dépasse largement une seule plateforme. Et là, ils ont raison.

Le Récap

En bref
Les requêtes les plus banales sont aussi les plus exposées
Treize mots suffisent parfois à tordre une réponse
Tous les outils ne réagissent pas pareil
Le plus agaçant, c’est qu’il n’y a pas de parade simple

En savoir plus