OpenAI lance son webcrawler GPTBot et les instructions pour le bloquer
OpenAI lance son webcrawler GPTBot et les instructions pour le bloquer
OpenAI a lancé un webcrawler pour améliorer ses modèles d’intelligence artificielle comme GPT-4. Baptisé GPTBot, le système navigue sur le web pour s’entraîner et améliorer les capacités de son IA. Selon un post de blog d’OpenAI, utiliser GPTBot a le potentiel d’améliorer les modèles d’IA existants en ce qui concerne la précision et la sécurité.
OpenAI lance son webcrawler GPTBot et les instructions pour le bloquer
« Les pages web récupérées avec le user agent GPTBot peuvent potentiellement être utilisées pour améliorer de futurs modèles et être filtrées pour retirer des sources qui nécessitent un accès payant, qui sont connues pour rassembler des informations personnelles identifiables (PII) ou qui contiennent des textes qui enfreignent nos politiques », peut-on notamment lire dans le post.
Les sites web peuvent cependant choisir de restreindre l’accès à ce robot et empêcher GPTBot d’accéder à leurs sites, que ce soit de manière partielle ou totale. OpenAI explique que les administrateurs des sites peuvent interdire le crawler en bloquant son adresse IP ou via le fichier robots.txt.
OpenAi a déjà suscité la controverse pour la manière dont il collecte les données et pour des infractions relatives au droit d’auteur ou encore pour des failles de sécurité. En juin, la plateforme a même été attaquée en justice pour « vol » de données personnelles visant à entraîner ChatGPT.
Des fonctions pour ne pas participer à ces programmes d’amélioration ont été implémentées récemment, permettant notamment de désactiver l’historique des conversations, donnant aux utilisateurs davantage de contrôle sur leurs données personnelles.
ChatGPT 3.5 et 4 ont été entraînés sur des données en ligne et des textes remontant à septembre 2021 pour les plus récents. Il n’y a actuellement aucun moyen de retirer du contenu de cet ensemble de données.
Comment empêcher GPTBot d’utiliser le contenu de votre site
Selon OpenAI, vous pouvez désactiver GPTBot en ajoutant quelques lignes au fichier Robots.txt de votre site. Ce fichier sert déjà précisément à donner des directives aux web crawlers, à indiquer ce à quoi ils peuvent ou non accéder.
Vous pouvez personnaliser ce qu’un tel robot peut utiliser, autoriser certaines pages et en interdire d’autres.
User-agent: GPTBot
Allow: /mon-dossier-1/
Disallow: /mon-dossier-2/
pour autoriser la collecte de contenu dans /mon-dossier-1/ et l’interdire dans /mon-dossier-2/. Avec Disallow: /, vous interdisez l’accès complet à votre site.