Menu
Begeek
Navigation : 
  • Tech
    • Apple
    • Google
    • Android
    • Facebook
    • OpenAI
  • Pop Culture
    • Séries TV
    • Films
    • Netflix
    • incroyable.fr
  • Jeux Vidéo
    • PlayStation PS5
    • Xbox Series X
    • Play To Earn
  • Fintech
    • Crypto-monnaies
    • Revolut
    • Acheter du Bitcoin
En ce moment : 
  • Stranger Things
  • Star Trek
  • Anime
  • Tomb Raider
  • James Cameron

Les entreprises d’IA continueraient d’aspirer les sites web malgré les protocoles de blocage

Tech > IA
Par Morgan Fromentin,  publié le 24 juin 2024 à 9h00.
Tech
intelligence artificielle robot humanoide

intelligence artificielle robot humanoideADN

D'après Reuters, plusieurs entreprises d'intelligence artificielle contournent délibérément les instructions des robots.txt. Que peuvent faire les régulateurs pour contrer cette tendance ?

Tl;dr

  • Perplexity, une société d’IA, est en difficulté suite à des accusations de plagiat.
  • Les entreprises d’IA se passeraient du protocole robot.txt pour récupérer du contenu.
  • OpenAI et Anthropic, respecteraient également des directives « do not crawl ».
  • Le PDG de Perplexity défend son entreprise en expliquant que le protocole n’est pas juridique.

Perplexity face aux accusations de plagiat

Perplexity, une entreprise de renom dans le domaine l’Intelligence Artificielle, qui se définit comme un « moteur de recherche AI gratuit », est dans l’œil du cyclone. Cette société est actuellement sous le feu des critiques après que Forbes l’a accusée de s’être approprié un article pour le republier sur différents sites web. Des affirmations soutenues par Wired, qui a révélé que « Perplexity ignorerait le protocole d’exclusion des robots, ou robots.txt, et balayerait son site web ainsi que d’autres publications de Condé Nast. »

Le Protocole d’Exclusion des Robots bafoué par les entreprises d’IA

Selon un article de Reuters, ce comportement n’est pas exclusif à Perplexity, d’autres entreprises d’IA semblent également contourner les fichiers robots.txt et scraper les sites web pour recueillir du contenu à utiliser ensuite dans l’entrainement de leurs technologies. Celui-ci a cité une lettre adressée aux éditeurs par TollBit, une start-up qui les met en relation avec des entreprises d’IA, les alertant que « des agents d’IA de plusieurs sources (pas seulement une entreprise) choisissent de contourner le protocole robots.txt pour récupérer du contenu à partir de sites. »

OpenAI et Anthropic également dans la ligne de mire

TollBit, dans sa lettre, n’a nommé aucune société, mais Business Insider a révélé que OpenAI et Anthropic, créateurs des chatbots ChatGPT et Claude respectivement, contourneraient également les signaux de robots.txt. Ces entreprises avaient affirmé précédemment qu’elles respectaient les directives « ne pas explorer » insérées dans leurs fichiers robots.txt par les sites web.

La défense du PDG de Perplexity

En dépit de ces controverses, Aravind Srinivas, le PDG de Perplexity, défend ardemment son entreprise. Dans une interview à Fast Company, il insiste sur le fait que son entreprise « n’ignore pas le protocole d’exclusion des robots et ne ment pas à ce sujet. » Cependant, cela n’exclut pas qu’elle puisse bénéficier de systèmes qui ignorent ce protocole : d’après Srinivas, Perplexity utiliserait des web crawlers tiers en sus du sien. Interrogé sur un arrêt potentiel du scraping du site de Wired, il a répondu par une énigmatique « c’est compliqué. » Il a également souligné que le Protocole d’Exclusion des Robots « n’est pas un cadre juridique » suggérant ainsi l’éventuelle nécessité d’établir une nouvelle forme de relation entre les éditeurs et les entreprises comme la sienne.

Le Récap
  • Tl;dr
  • Perplexity face aux accusations de plagiat
  • Le Protocole d’Exclusion des Robots bafoué par les entreprises d’IA
  • OpenAI et Anthropic également dans la ligne de mire
  • La défense du PDG de Perplexity
En savoir plus
  • Meta s’empare de Manus, l’une des pépites asiatiques de l’intelligence artificielle
  • Les Indie Game Awards retirent deux prix à Clair Obscur pour usage d’IA générative
  • Six géants de l’IA attaqués pour violation de droits d’auteur
Vous aimez nos contenus ?
Recevez chaque jour nos dernières publications gratuitement et directement dans votre boite mail
Recevoir la newsletter
  • Infos Légales
  • Contact
  • À propos
  • Archives
  • Antivirus
© 2026 - Tous droits réservés sur les contenus du site Begeek  - ADN Contents -