Apple lance un modèle IA capable de modifier des images via des commandes textuelles
MGIE utilise des modèles linguistiques multimodaux volumineux (MLLMs) pour décoder votre langage.
Tl;dr
- Apple dévoile un nouveau modèle d’IA pour l’édition d’images.
- Le modèle MGIE interprète les commandes textuelles pour manipuler les images.
- Le MGIE peut effectuer des modifications majeures et des réglages mineurs sur les photos.
- Le modèle est accessible sur GitHub et disponible en démo sur Hugging Face Spaces.
Une nouvelle innovation fait irruption sur le marché de l’IA. Réputée pour ses avancées technologiques, l’entreprise Apple prouve encore une fois son dynamisme. Le géant de la tech vient en effet d’établir de nouvelles normes dans le domaine de l’intelligence artificielle avec son modèle open source d’édition d’images basée sur l’IA.
MGIE : une édition d’image guidée par l’IA
La nouvelle offre d’Apple est baptisée MGIE, signifiant MLLM-Guided Image Editing. Cette technologie exploite des Grands Modèles de Langage Multimodaux (MLLM) pour interpréter les commandes basées sur du texte afin de manipuler des images. MGIE se distingue en ayant la capacité d’éditer des photos à partir du texte que l’utilisateur tape. En d’autres termes, « les instructions de l’homme sont parfois trop brèves pour que les méthodes actuelles puissent les saisir et les suivre », peut-on lire dans le document du projet.
Un outil aux multiples facettes
Conçu en collaboration avec des chercheurs de l’Université de Californie à Santa Barbara, le MGIE possède une faculté de transformation à nulle autre pareille. Il peut transformer des instructions textuelles simples ou ambiguës en directives précises et claires que l’éditeur de photo peut suivre.
En plus de réaliser des modifications majeures sur les images, le MGIE peut également recadrer, redimensionner et faire pivoter les photos. Il est aussi capable d’améliorer la luminosité, le contraste et la balance des couleurs d’une photo à partir de simples commandes textuelles.
Une disponibilité sur GitHub
Pour ceux qui seraient intéressés par cette nouvelle technologie, Apple a mis le modèle à disposition sur GitHub. Il est éventuellement possible d’essayer une démo actuellement hébergée sur Hugging Face Spaces. Si Apple n’a pas encore précisé ses plans futurs pour le MGIE, il est certain que ce modèle open source d’édition d’images basée sur l’intelligence artificielle bousculera l’industrie.