Meta rend open source son IA MusicGen pour créer de la musique à part d’invites textuelles
Meta rend open source son IA MusicGen pour créer de la musique à part d'invites textuelles. Meta et Google continuent de se livrer une rude bataille.
L’équipe de recherche Audiocraft de Meta vient de lancer MusicGen, un modèle de langage de deep learning open source qui peut générer de la musique à part de simples invites textuelles et peut même s’aligner sur une chanson existante. C’est un peu comme ChatGPT pour l’audio, vous permettant de décrire le style de musique que vous voulez, de proposer une chanson existante, si vous le souhaitez, et de cliquer sur Générer. Après quelques instants (parfois plusieurs minutes), vous avez un morceau qui répond à vos demandes.
Meta rend open source son IA MusicGen pour créer de la musique à part d’invites textuelles
La démonstration sur le site Hugging Face de Facebook vous permet de décrire votre musique, avec de nombreux exemples, comme « une chanson pop des années 1980 avec des grosses percussions et des synthés en arrière-plan ». Vous pouvez ensuite « conditionner » cela à une chanson existante, jusqu’à 30 secondes, avec la possibilité de sélectionner l’extrait exact. Ensuite, cliquez sur Générer et l’algorithme va créer un morceau haute qualité durant jusqu’à 12 secondes.
L’équipe a utilisé 20 000 heures de musique sous licence pour entraîner son modèle, dont 10 000 pistes haute qualité provenant d’un jeu de données internes, ainsi que des pistes sur Shutterstock et Pond5. Pour accélérer le processus, ils ont utilisé le tokenizer audio EnCodec 32 kHz de Meta pour générer des extraits de musique plus petits qui peuvent être traités en parallèle. « Contrairement aux méthodes existantes comme MusicLM, MusicGen n’a pas besoin d’une représentation sémantique auto-supervisée [et n’a] que 50 étapes auto-régressives par seconde d’audio », précisait l’ingénieur ML de Hugging Face, Ahsen Khaliq, dans un tweet.
Meta et Google continuent de se livrer une rude bataille
Le mois dernier, Google partageait un générateur de musique similaire baptisé MusicLM, mais MusicGen semble être en mesure de générer des résultats légèrement meilleurs. Sur une page d’exemples, les chercheurs comparent les créations de MusicGen avec celles de MusicLM et deux autres modèles, Riffusion et Musai, pour prouver leurs dires. Le processus peut aussi être exécuté localement – un GPU avec au moins 16 Go de RAM est recommandé – et est disponible dans quatre tailles différentes, de la petite – 300 millions de paramètres – à la grande – 3,3 milliards de paramètres -, cette dernière ayant logiquement le plus grand potentiel pour créer de la musique complexe.
Comme mentionné, MusicGen est open source et peut même être utilisé pour générer de la musique commerciale. Quoi qu’il en soit, c’est un énième exemple à rajouter à la longue liste de développements autour de l’intelligence artificielle depuis six mois maintenant, avec des modèles de deep learning qui devraient s’inviter dans de nombreux autres domaines.
We present MusicGen: A simple and controllable music generation model. MusicGen can be prompted by both text and melody.
We release code (MIT) and models (CC-BY NC) for open research, reproducibility, and for the music community: https://t.co/OkYjL4xDN7 pic.twitter.com/h1l4LGzYgf— Felix Kreuk (@FelixKreuk) June 9, 2023