La startup IA Anthropic accusée de violer les protocoles anti-scraping des sites web

Selon iFixit et Freelancer, le bot d'Anthropic a exploré leurs sites internet de manière agressive.

TL;DR

  • Anthropic, une startup IA, est accusée de scraper les données web malgré les protocoles d’exclusion.
  • Freelancer et iFixit déclarent être touchés par le scraping d’Anthropic.
  • Les entreprises AI utilisent le scraping pour entrainer leurs technologies génératives IA.

Accusation de violation du protocole d’exclusion par Anthropic

Anthropic, une startup en intelligence artificielle, est aux prises avec des accusations sérieuses. Freelancer, une grande plateforme de freelance, reproche à l’entreprise d’avoir omis de respecter son protocole « do not crawl » du fichier robots.txt, qui interdit le scraping (l’extraction) des données de ses sites web. Cette accusation n’est pas isolée puisque le PDG d’iFixit, Kyle Wiens, dénonce également des infractions similaires.

Une pratique jugée « agressive »

Le PDG de Freelancer, Matt Barrie, a qualifié le bot de web scraping d’Anthropic, nommé ClaudeBot, comme étant « le plus agressif de loin ». Il avance que sur un laps de temps de quatre heures seulement, son site aurait été visité environ 3,5 millions de fois par le bot d’Anthropic. Cela représente « probablement environ cinq fois le volume du deuxième robot IA ». De manière similaire, Wiens a affirmé sur Twitter qu’en l’espace de 24 heures, le bot d’Anthropic aurait envoyé un million de requêtes au serveur d’iFixit. Il dénonce notamment que non seulement le contenu de leur site est emprunté sans contrepartie financière, mais cela entraine également une surcharge de travail pour l’équipe de développement du site.

Des entreprises IA dans la tourmente

Selon Business Insider, de nombreuses entreprises de l’IA procèderaient, elles aussi, au scraping de données web en ignorant le protocole d’exclusion. C’est le cas de Perplexity, une autre société spécialisée dans l’IA, qui a été pointée du doigt par le magazine Wired en juin dernier.

La raison de cette pratique réside dans le fait que l’IA utilise le contenu web pour former leurs technologies d’intelligence artificielle générative. De ce fait, plusieurs entreprises IA ont déjà été la cible de procès pour violation de droits d’auteur. Afin d’éviter cette situation, certaines, comme OpenAI, ont préféré conclure des accords avec les éditeurs et les propriétaires de sites web.

Anthropic se défend

Face à ces allégations, Anthropic a fait savoir au site The Information qu’elle respecte le protocole robots.txt et que le cas est actuellement sous investigation. Malgré les controverses, la porte semble ouverte à la discussion. Wiens d’iFixit, s’est dit disposé à envisager un accord concernant le contenu de son site pour un usage commercial.

Morgan Fromentin

Spécialiste Tech

Depuis 2018, je décrypte l'actualité technologique ainsi que les dernières nouveautés cinéma et séries sur Begeek.fr.

X Tous ses articles →
Sujets
IA

Lisez Begeek en priorité sur Google

Ajoutez-nous à vos sources préférées : nos articles remonteront plus haut dans votre actualité.

Ajouter à mes sources

À découvrir

La suite, sélectionnée pour vous.

Begeek · 02 Juil · 10h00

Test Honor Magic V6

Après un Magic V5 déjà très convaincant, Honor revient avec le Magic V6, un smartphone pliable qui cherche moins à réinventer la formule qu’à la pousser encore un peu plus loin. Plus fin, plus endurant, mieux protégé et toujours pensé comme un hybride entre smartphone premium et mini-tablette, ce nouveau modèle veut montrer qu’un pliable peut désormais être utilisé comme téléphone principal sans trop de compromis.