Google va permettre aux éditeurs d'empêcher ses IA d'accéder à leur contenu. Une nouvelle option pour le fichier robots.txt qui devrait être très utile.

Google a annoncé un nouveau contrôle dans son fichier d’indexation robots.txt qui permettra aux éditeurs de décider s’ils souhaitent que leur contenu “aide à améliorer les API d’IA générative Bard et Vertex, y compris les futures générations de modèles qui propulsent ces produits.”

Google va permettre aux éditeurs d’empêcher ses IA d’accéder à leur contenu

Le contrôle est un crawler baptisé Google-Extended, et les éditeurs peuvent l’ajouter au fichier dans la documentation de leur site pour indiquer à Google de ne pas utiliser le contenu pour ces deux API. Dans son annonce, la vice-présidente responsable de la Confiance chez le géant, Danielle Romain, expliquait avoir “entendu des éditeurs web qu’ils veulent davantage de choix et de contrôle quant à la manière dont leur contenu est utilisé pour les nouveaux cas d’usage de l’IA générative.”

Danielle Romain ajoutait que Google-Extended “est une importante étape pour fournir la transparence et le contrôle qui, selon nous, devraient être proposés par tous les fournisseurs de modèles IA.” Alors que les chatbots IA gagnent en importance et deviennent intégrés de plus en plus profondément dans les résultats de recherche, la manière dont le contenu est digéré par des outils comme Bard et Bing AI a été le sujet de craintes légitimes par les éditeurs.

Bien que ces systèmes puissent citer leurs sources, ils agrègent des informations qui proviennent de différents sites et les présentent aux utilisateurs dans la conversation. Cela pourrait réduire significativement la quantité de trafic vers les media individuels, ce qui aurait alors un impact sur des aspects comme les revenus publicitaires et tous les business models des éditeurs.

Une nouvelle option pour le fichier robots.txt qui devrait être très utile

Google déclarait que, en ce qui concerne l’entrainement des modèles IA, ces options de non-adhésion s’appliqueront à la prochaine génération de modèles pour les IA Bard et Vertex. Les éditeurs qui souhaitent garder leur contenu en dehors de services comme l’expérience de recherche générative (SGE) devraient continuer d’utiliser le user agent Googlebot et le meta tag NOINDEX dans leur fichier robots.txt.

Danielle Romain précise que, “alors que les applications IA s’étendent, les éditeurs web feront face à une complexité grandissante pour gérer les différents cas d’usage à l’échelle.” Cette année a été celle de l’explosion du développement d’outils basés sur l’IA générative et avec la recherche qui est tellement importante pour la découverte de contenu, il semblerait que l’internet a besoin d’une énorme transition. L’introduction par Google de cette nouvelle option tombe à point nommé, mais indique aussi que le géant réfléchit à la manière dont ses produits impacteront le web.