En bref
- Le vocabulaire autour de l’IA s’est emballé.
- Chaque terme cache un enjeu produit.
- Le hardware pèse autant que les modèles.
On entend partout parler de tokens, d’agents IA ou de LLM. Et non, ce n’est pas juste du vernis marketing. Ce vocabulaire raconte déjà ce que les outils savent faire, où ils coincent, et pourquoi toute l’industrie court après la même chose, plus de puissance, plus d’autonomie, plus de débit.
Derrière les sigles, des promesses très concrètes
Le terme le plus flou reste sans doute AGI, pour intelligence artificielle générale. Chez OpenAI, Sam Altman l’avait décrite comme l’équivalent d’un humain moyen qu’on pourrait embaucher comme collègue. Le labo parle aussi de systèmes très autonomes, meilleurs que les humains sur la plupart des tâches économiquement utiles. Du côté de Google DeepMind, la définition glisse un peu vers des performances au moins humaines sur la majorité des tâches cognitives. Bref, même les labos ne mettent pas exactement la même chose derrière le mot.
Plus concret, l’agent IA désigne un outil capable d’enchaîner des actions seul, réserver une table, remplir des notes de frais, piloter d’autres services ou même maintenir du code. Sa version spécialisée, le coding agent, va plus loin qu’un assistant qui suggère quelques lignes. Il écrit, teste, débugge, puis recommence. Un stagiaire turbo, mais à surveiller quand même.
Pourquoi les modèles répondent, se trompent ou progressent ?
Au centre du jeu, il y a les LLM, ces grands modèles de langage derrière ChatGPT, Claude, Gemini, Copilot, Llama ou Le Chat. Ils apprennent pendant l’entraînement, puis tournent en inférence quand vous leur demandez quelque chose.
Le fameux chain of thought consiste à découper un problème en étapes intermédiaires pour améliorer la réponse, surtout en logique ou en code. Le reinforcement learning, notamment avec retour humain, sert justement à affiner ce comportement. Et le fine-tuning permet de spécialiser un modèle pour une tâche précise.
Le gros caillou dans la chaussure, vous le connaissez, c’est l’hallucination. Une IA invente, affirme faux, parfois avec aplomb. Résultat, les acteurs du secteur poussent aussi vers des modèles plus verticaux et spécialisés, histoire de limiter les trous dans la raquette.
Le nerf de la guerre, c’est la machine derrière
On parle souvent des modèles, pas assez du compute. C’est pourtant la base, la puissance de calcul fournie par les GPU, CPU, TPU et tout le reste. Sans ça, pas d’entraînement massif, pas d’inférence rapide.
Même combat pour la parallélisation, qui permet de faire énormément de calculs en même temps, et pour le memory cache, pensé pour éviter des calculs inutiles et accélérer les réponses. Les tokens, eux, servent d’unité de base pour découper le texte, mais aussi pour facturer l’usage. Le token throughput mesure combien de travail un système peut avaler à un instant donné. C’est très technique, et pourtant ça décide directement du nombre d’utilisateurs servis et de la vitesse de réponse.
Au passage, la ruée de l’IA sur la mémoire a même son surnom, RAMageddon. Pas très subtil, mais assez parlant.
Les standards et architectures qui changent la donne
Certains termes disent surtout où va l’écosystème. Anthropic a lancé MCP, désormais porté par la Linux Foundation et repris par OpenAI, Google et Microsoft, pour connecter les modèles à des fichiers, bases de données ou apps sans bricoler un connecteur à chaque fois. Les API endpoints jouent un rôle voisin, comme des boutons cachés qu’un logiciel peut actionner chez un autre.
Côté architecture, MoE répartit le travail entre plusieurs sous-réseaux spécialisés, quand les réseaux de neurones et le deep learning restent la colonne vertébrale de l’IA moderne. Diffusion, distillation, GAN, transfer learning, validation loss ou weights, ce sont les briques internes qui rendent les modèles plus réalistes, plus légers, mieux entraînés ou simplement plus utiles. Du jargon, oui. Mais du jargon qui décide déjà du futur des produits que vous utilisez.