OpenAI et Google utilisent les transcriptions de vidéos YouTube pour former leurs modèles IA, selon des rapports
Selon le New York Times, des entreprises auraient enfreint les droits d'auteur de créateurs YouTube.
Tl;dr
- OpenAI et Google utiliseraient des transcriptions YouTube pour entraîner leurs IA.
- Cette pratique pourrait enfreindre les droits d’auteur des créateurs.
- Google utiliserait aussi des vidéos YouTube pour ses propres modèles IA.
- Google aurait modifié sa politique de confidentialité pour couvrir l’utilisation d’autres contenus publics.
La polémique autour de l’entraînement des IA
Selon un rapport du New York Times, OpenAI et Google auraient utilisé des textes transcrits de vidéos YouTube pour entraîner leurs modèles d’intelligence artificielle. Cette pratique pourrait avoir été faite aux dépens des “droits d’auteur des créateurs”, suscitant ainsi une polémique autour des méthodes employées par ces entreprises pour enrichir leurs systèmes d’IA.
OpenAI, Google… Vers un possible non-respect des politiques YouTube
Le rapport indique qu’OpenAI aurait utilisé son outil de reconnaissance vocale Whisper pour transcrire plus de un million d’heures de vidéos YouTube et entraîner son futur modèle GPT-4. Pourtant, selon une interview récente du PDG de YouTube, l’utilisation des vidéos YouTube par OpenAI pour entraîner Sora, son générateur texte-vidéo, violerait les politiques de la plateforme.
Google : un cas entre allégations et clarifications
Allant plus loin, le rapport révèle que Google, bien que connaissant cette pratique, n’aurait pas agi contre OpenAI. La raison ? Google lui-même utiliserait des vidéos YouTube pour entraîner ses propres modèles d’IA, cependant uniquement avec l’accord des créateurs, comme précisé à NYT.
Modification de la politique de confidentialité de Google
Par ailleurs, le rapport du NYT avance que Google aurait demandé en juin 2023 à une équipe de modifier sa politique de confidentialité pour étendre sa couverture à l’utilisation de contenus publics, comme Google Docs et Google Sheets, pour entraîner ses modèles d’IA. Ces changements, effectués pour plus de “clarté”, ont été publiés en juillet. Selon Google, ce type de données ne serait utilisé qu’avec la permission des utilisateurs qui s’inscrivent aux tests de fonctionnalités expérimentales de Google. Ainsi, l’entreprise affirme n’avoir pas commencé à entraîner sur des types de données supplémentaires à la suite de ce changement de langage.