Jalapeño : la puce qui change la stratégie hardware d’OpenAI

OpenAI présente Jalapeño, sa première puce maison conçue avec Broadcom. L’enjeu dépasse la technique, c’est aussi une question de coûts.

OpenAI Jalapeño
Image d'illustration. OpenAI Jalapeño — OpenAI / PR-ADN
  • OpenAI a présenté Jalapeño, sa première puce IA conçue avec Broadcom, afin de réduire sa dépendance aux GPU de Nvidia et optimiser ses coûts.
  • La puce est spécialisée dans l’inférence et promet de meilleures performances par watt, ce qui peut améliorer significativement le coût d’exécution des modèles à grande échelle.
  • Au-delà du hardware, OpenAI cherche à contrôler toute la chaîne technologique de l’IA, du processeur jusqu’aux modèles et à leur déploiement.

La vraie info n’est pas juste qu’OpenAI a une puce. C’est qu’OpenAI commence à grignoter un terrain jusque-là dominé par Nvidia, avec un objectif limpide, faire tourner ses modèles pour moins cher. Et dans l’IA, ce genre de mouvement change vite la donne.

Pourquoi OpenAI veut sa puce à lui ?

OpenAI a officialisé Jalapeño, son premier processeur conçu sur mesure avec Broadcom. Le partenariat avait été annoncé en octobre, mais les rumeurs autour des ambitions hardware de l’entreprise circulaient déjà depuis un moment.

L’idée, vous la voyez venir. Réduire la dépendance aux GPU de Nvidia. Google et Amazon ont déjà pris cette route avec leurs propres accélérateurs IA, taillés pour les charges machine learning. OpenAI suit donc une logique assez claire, mais avec un timing qui dit beaucoup sur la pression économique du secteur.

Jalapeño vise un point précis du pipeline

Jalapeño n’a pas été pensé pour tout faire. La puce cible l’inférence, donc l’exécution de modèles déjà entraînés quand un utilisateur envoie une requête. C’est là qu’OpenAI veut optimiser ses besoins très spécifiques.

La puce est encore en phase de test, mais les premiers résultats évoqués par OpenAI montrent un gain net en performance par watt face aux alternatives actuelles les plus avancées. Et ça, pour de l’IA à grande échelle, ce n’est pas cosmétique.

Autre point concret, OpenAI insiste sur le faible coût d’exploitation pour les modèles de code en temps réel. Pour les tâches plus lourdes, comme le pré-entraînement, le recours au matériel Nvidia devrait quand même rester la norme. Mais même une petite baisse de coût côté inférence peut avoir un effet direct sur les marges. Résultat, ce morceau du pipeline devient soudain très sexy.

Le vrai sujet, c’est le contrôle de toute la pile

Ce lancement raconte aussi autre chose. OpenAI ne veut plus seulement fabriquer des modèles ou des produits comme Codex, mais piloter l’infrastructure qui tourne dessous, jusque dans les data centers.

Greg Brockman, président d’OpenAI, l’avait résumé sur le podcast maison de l’entreprise après l’annonce du partenariat avec Broadcom : « Nous avons une compréhension profonde de la charge de travail. Nous avons vraiment cherché des charges spécifiques mal servies, en nous demandant comment construire quelque chose capable d’accélérer ce qui est possible ».

Et OpenAI pousse la logique loin. L’entreprise explique travailler sur l’architecture des puces, les kernels, la mémoire, le réseau, l’ordonnancement, les systèmes de déploiement et jusqu’à l’expérience produit. Ses propres modèles d’IA ont même participé à la conception de Jalapeño. En gros, OpenAI veut optimiser toute la pile dans le même sens, des modèles plus rapides, plus fiables et moins chers pour l’utilisateur.