La startup IA Anthropic accusée de violer les protocoles anti-scraping des sites web
Selon iFixit et Freelancer, le bot d'Anthropic a exploré leurs sites internet de manière agressive.
TL;DR
- Anthropic, une startup IA, est accusée de scraper les données web malgré les protocoles d’exclusion.
- Freelancer et iFixit déclarent être touchés par le scraping d’Anthropic.
- Les entreprises AI utilisent le scraping pour entrainer leurs technologies génératives IA.
Accusation de violation du protocole d’exclusion par Anthropic
Anthropic, une startup en intelligence artificielle, est aux prises avec des accusations sérieuses. Freelancer, une grande plateforme de freelance, reproche à l’entreprise d’avoir omis de respecter son protocole « do not crawl » du fichier robots.txt, qui interdit le scraping (l’extraction) des données de ses sites web. Cette accusation n’est pas isolée puisque le PDG d’iFixit, Kyle Wiens, dénonce également des infractions similaires.
Une pratique jugée « agressive »
Le PDG de Freelancer, Matt Barrie, a qualifié le bot de web scraping d’Anthropic, nommé ClaudeBot, comme étant « le plus agressif de loin ». Il avance que sur un laps de temps de quatre heures seulement, son site aurait été visité environ 3,5 millions de fois par le bot d’Anthropic. Cela représente « probablement environ cinq fois le volume du deuxième robot IA ». De manière similaire, Wiens a affirmé sur Twitter qu’en l’espace de 24 heures, le bot d’Anthropic aurait envoyé un million de requêtes au serveur d’iFixit. Il dénonce notamment que non seulement le contenu de leur site est emprunté sans contrepartie financière, mais cela entraine également une surcharge de travail pour l’équipe de développement du site.
If any of those requests accessed our terms of service, they would have told you that use of our content expressly forbidden. But don't ask me, ask Claude!
If you want to have a conversation about licensing our content for commercial use, we're right here. pic.twitter.com/CAkOQDnLjD
— Kyle Wiens (@kwiens) July 24, 2024
Des entreprises IA dans la tourmente
Selon Business Insider, de nombreuses entreprises de l’IA procèderaient, elles aussi, au scraping de données web en ignorant le protocole d’exclusion. C’est le cas de Perplexity, une autre société spécialisée dans l’IA, qui a été pointée du doigt par le magazine Wired en juin dernier.
La raison de cette pratique réside dans le fait que l’IA utilise le contenu web pour former leurs technologies d’intelligence artificielle générative. De ce fait, plusieurs entreprises IA ont déjà été la cible de procès pour violation de droits d’auteur. Afin d’éviter cette situation, certaines, comme OpenAI, ont préféré conclure des accords avec les éditeurs et les propriétaires de sites web.
Anthropic se défend
Face à ces allégations, Anthropic a fait savoir au site The Information qu’elle respecte le protocole robots.txt et que le cas est actuellement sous investigation. Malgré les controverses, la porte semble ouverte à la discussion. Wiens d’iFixit, s’est dit disposé à envisager un accord concernant le contenu de son site pour un usage commercial.