Menu
Begeek
Navigation : 
  • Tech
    • Apple
    • Google
    • Android
    • Facebook
    • OpenAI
  • Pop Culture
    • Séries TV
    • Films
    • Netflix
    • incroyable.fr
  • Jeux Vidéo
    • PlayStation PS5
    • Xbox Series X
    • Play To Earn
  • Fintech
    • Crypto-monnaies
    • Revolut
    • Acheter du Bitcoin
En ce moment : 
  • Star Trek
  • VPN
  • Yellowstone
  • Doctor Who
  • Cinéma

OpenAI lance son webcrawler GPTBot et les instructions pour le bloquer

Tech > IA
Par Morgan Fromentin,  publié le 9 août 2023 à 9h00.

OpenAI lance son webcrawler GPTBot et les instructions pour le bloquer

OpenAI a lancé un webcrawler pour améliorer ses modèles d’intelligence artificielle comme GPT-4. Baptisé GPTBot, le système navigue sur le web pour s’entraîner et améliorer les capacités de son IA. Selon un post de blog d’OpenAI, utiliser GPTBot a le potentiel d’améliorer les modèles d’IA existants en ce qui concerne la précision et la sécurité.

OpenAI lance son webcrawler GPTBot et les instructions pour le bloquer

« Les pages web récupérées avec le user agent GPTBot peuvent potentiellement être utilisées pour améliorer de futurs modèles et être filtrées pour retirer des sources qui nécessitent un accès payant, qui sont connues pour rassembler des informations personnelles identifiables (PII) ou qui contiennent des textes qui enfreignent nos politiques », peut-on notamment lire dans le post.

Les sites web peuvent cependant choisir de restreindre l’accès à ce robot et empêcher GPTBot d’accéder à leurs sites, que ce soit de manière partielle ou totale. OpenAI explique que les administrateurs des sites peuvent interdire le crawler en bloquant son adresse IP ou via le fichier robots.txt.

OpenAi a déjà suscité la controverse pour la manière dont il collecte les données et pour des infractions relatives au droit d’auteur ou encore pour des failles de sécurité. En juin, la plateforme a même été attaquée en justice pour « vol » de données personnelles visant à entraîner ChatGPT.

Des fonctions pour ne pas participer à ces programmes d’amélioration ont été implémentées récemment, permettant notamment de désactiver l’historique des conversations, donnant aux utilisateurs davantage de contrôle sur leurs données personnelles.

ChatGPT 3.5 et 4 ont été entraînés sur des données en ligne et des textes remontant à septembre 2021 pour les plus récents. Il n’y a actuellement aucun moyen de retirer du contenu de cet ensemble de données.

Comment empêcher GPTBot d’utiliser le contenu de votre site

Selon OpenAI, vous pouvez désactiver GPTBot en ajoutant quelques lignes au fichier Robots.txt de votre site. Ce fichier sert déjà précisément à donner des directives aux web crawlers, à indiquer ce à quoi ils peuvent ou non accéder.

Vous pouvez personnaliser ce qu’un tel robot peut utiliser, autoriser certaines pages et en interdire d’autres.

User-agent: GPTBot

Allow: /mon-dossier-1/

Disallow: /mon-dossier-2/

pour autoriser la collecte de contenu dans /mon-dossier-1/ et l’interdire dans /mon-dossier-2/. Avec Disallow: /, vous interdisez l’accès complet à votre site.

Le Récap
  • OpenAI lance son webcrawler GPTBot et les instructions pour le bloquer
  • Comment empêcher GPTBot d’utiliser le contenu de votre site
En savoir plus
  • LEGO innove dans l’éducation avec l’IA et le codage pour enfants
  • ChatGPT se souvient de tout : votre historique enfin exploitable
  • ChatGPT Translate adapte ton et contexte pour chaque traduction
Vous aimez nos contenus ?
Recevez chaque jour nos dernières publications gratuitement et directement dans votre boite mail
Recevoir la newsletter
  • Infos Légales
  • Contact
  • À propos
  • Archives
  • Antivirus
© 2026 - Tous droits réservés sur les contenus du site Begeek  - ADN Contents -