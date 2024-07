Reddit a annoncé à Engadget qu'il bloquerait tous ceux qui ne s'engageraient pas à refréner l'utilisation du site pour l'entrainement de l'IA.

TL;DR Reddit bloque le scraping des données par des IA et les moteurs de recherche non-autorisés.

Seuls Google et Brave peuvent dorénavant accéder au contenu de Reddit.

Cela impacte les fournisseurs de chatbot et les moteurs de recherche comme Bing ou DuckDuckGo.

Reddit revoit sa politique de données : le pionnier de la confidentialité ?

Il semble que Reddit, le forum plébiscité par des millions d’internautes, ait décidé de changer de cap et de renforcer son contrôle sur les données générées par ses utilisateurs. Son objectif aujourd’hui est de lutter contre le « scraping » de données réalisées sans autorisation.

Une guerre contre les géants ?

Suite à un contrat signé avec Google, pour un montant avoisinant les 60 millions de dollars annuels, Reddit semble avoir décidé de bloquer les autres moteurs de recherche. Brave fait également partie des privilégiés autorisés à accéder à ses données. C’est ce que rapporte le média américain Engadget, citant un porte-parole de Reddit. L’argument mis en avant est plutôt surprenant : il s’agirait en réalité d’une décision motivée par des désaccords avec les exigences de ces compagnies concurrentes concernant l’entraînement d’intelligence artificielle.

Face à ce changement, les géants de la recherche comme Bing ou DuckDuckGo ne peuvent plus afficher de résultat en provenance de Reddit. Les rares liens trouvés sur DuckDuckGo ne présentent aucune description, comme si le site refusait de donner l’accès à ses informations.

Une mise à jour du protocole Robots Exclusion

Il est essentiel de mentionner que Reddit a récemment mis à jour son protocole « Robots Exclusion Protocol« , convention d’exclusion destinée aux robots d’indexation. Cette mise à jour vise à bloquer le scraping de données automatique, évoqué au début de cet article, et à s’adresser spécifiquement à des entreprises comme Perplexity et son fameux « moteur de réponse ».

Aujourd’hui, il semblerait que Google soit le seul moteur de recherche ayant l’autorisation de parcourir Reddit et de générer des résultats sur la fameuse « front page de l’internet ».

Une stratégie commerciale ?

Dans un marché numérique de plus en plus concurrentiel, les entreprises comme Reddit, dont la valeur financière repose en grande partie sur leurs données, se doivent de les protéger et de limiter leur accès aux acteurs non-payants. Ce que nous observons aujourd’hui avec Reddit pourrait donc s’apparenter à une protection de ses acquis face à la « course à l’IA ».

Pour Colin Hayhurst, CEO de Mojeek, un moteur de recherche respectueux de la vie privée, Reddit met tout en œuvre pour faire barrage à tout type de recherche en dehors de Google, ajoutant que ses tentatives de contacter Reddit sont restées sans réponse.

Cependant, il faut noter que cette stratégie de blocage n’est pas sans risque pour Reddit, qui pourrait s’attirer les foudres de sa base d’utilisateurs, à l’image de ce qu’a pu connaître Christian Selig avec son application Apollo. Reste à savoir si le pari est judicieux et si les utilisateurs continueront à se montrer fidèles malgré ces changements radicaux.