Google met à jour sa politique de confidentialité pour pouvoir utiliser les données publiques dans l'apprentissage de ses modèles IA. Les sociétés de l'IA ne s'en cachent plus, les sites "publics" se protègent.

Google a mis à jour sa politique de confidentialité pour déclarer qu’il peut désormais utiliser des données disponibles publiquement pour aider l’apprentissage de ses modèles IA. Le géant de la tech a changé la formulation de ses conditions pendant le week-end, transformant notamment le terme “modèles IA” par “modèles de langage”.

La firme de Mountain View déclare aussi qu’elle peut utiliser les données publiques non seulement pour façonner des fonctionnalités, mais aussi des produits complets comme “Google Translate, Bard et Cloud AI.” En procédant ainsi, le géant américain fait savoir de manière très claire à tout un chacun que tout ce que vous postez en public peut être utilisé pour entraîner Bard, ses futures versions et tout autre produit d’IA générative que Google développe. Pour être tout à fait transparent, Google a mis en avant les modifications réalisées dans ses règles sur son archive.

De nombreuses critiques se sont déjà fait entendre quant à l’utilisation par les sociétés de l’IA des informations publiées en ligne pour entraîner leurs grands modèles de langage pour une utilisation dans le cadre de l’IA générative. Récemment, un recours collectif a été déposé à l’encontre d’OpenAI, l’accusant de récupérer “d’énormes quantités de données personnelles sur Internet”, y compris des “informations privées volées”, pour entraîner ses modèles GPT sans avoir obtenu au préalable le consentement. Comme Search Engine Journal le précise, nous devrions voir encore de nombreuses actions en justice similaires alors que les entreprises seront de plus en plus nombreuses à développer leurs propres produits d’IA générative.

Les sociétés de l’IA ne s’en cachent plus, les sites “publics” se protègent

Des propriétaires de sites qui pourraient être considérés comme dans l’espace public dans notre ère numérique ont déjà pris certaines mesures pour empêcher ou tirer profit de cette explosion de l’IA générative. Reddit a commencé à faire payer l’accès à son API, ce qui a conduit à la fermeture de plusieurs clients tiers ce week-end. Ce week-end, Twitter a mis en place des restrictions sur le nombre qu’un utilisateur peut voir par jour “pour faire face à des niveaux extrêmes de data scraping [et] une manipulation du système.”