Le Ryzen AI Max Pro 400 d'AMD libère l'inférence IA des serveurs

AMD annonce à Computex 2026 sa puce Ryzen AI Max Pro 400 : 192 Go de mémoire unifiée pour faire tourner des LLM de 300 milliards de paramètres sur un PC.

HardwareDéveloppeurs

Le Ryzen AI Max Pro 400 d'AMD libère l'inférence IA des serveurs

Jusqu'ici, faire tourner un grand modèle de langage de 300 milliards de paramètres nécessitait plusieurs GPU haut de gamme et un rack de serveurs. AMD vient de changer la donne à Computex 2026 en annonçant le Ryzen AI Max Pro 400, une puce x86 capable d'exécuter ce type de modèle sur un seul ordinateur de bureau ou portable professionnel.

Puce AMD Ryzen AI Max Pro 400 sur circuit imprimé avec éclairage dramatique

Une architecture pensée pour l'inférence locale

Le Ryzen AI Max Pro 400, dont le nom de code est "Gorgon Halo", monte la barre de la mémoire unifiée à 192 Go, contre 128 Go pour la génération précédente. Sur ce total, 160 Go peuvent être alloués directement au GPU intégré, ce qui permet d'y loger des modèles quantifiés à 4 bits de l'envergure de Llama 4 405B ou de Mistral Large 3. AMD parle de 55 TOPS pour le NPU, avec un GPU RDNA 3.5 à 40 unités de calcul.

La gamme comprend trois déclinaisons : le Ryzen AI Max+ PRO 495 (16 cœurs, GPU complet), le Ryzen AI Max PRO 490 et le Ryzen AI Max PRO 485. HP et Lenovo ont été désignés partenaires OEM au lancement, avec des machines attendues pour le troisième trimestre 2026. AMD positionne ces systèmes sous le terme "Agent Computers", un glissement sémantique qui reflète l'évolution de l'usage : ces PC ne sont plus seulement des postes de travail, mais des hôtes d'agents IA locaux.

Ce que ça signifie concrètement

La promesse des 300 milliards de paramètres mérite une nuance. AMD n'a pas encore publié de benchmarks d'inférence à 4 bits pour des modèles aussi volumineux sur cette configuration. La capacité mémoire est réelle, mais le débit en tokens par seconde reste à démontrer sur des charges de travail pratiques. Sur ce point, la comparaison avec la puce RTX Spark de NVIDIA présentée à Computex 2026 sera instructive : les deux constructeurs se livrent une bataille directe pour conquérir le marché du PC IA local.

Par ailleurs, l'essor des puces IA sur mesure chez les hyperscalers rappelle que le marché se scinde en deux : d'un côté les infrastructures cloud de très grande échelle, de l'autre les machines locales de plus en plus capables. Le Ryzen AI Max Pro 400 s'inscrit clairement dans la seconde catégorie, avec une cible principale constituée des équipes R&D, des développeurs et des entreprises souhaitant garder leurs données sur site.

Ce que ça signifie pour vous

Pour un développeur ou une entreprise qui travaille sur des modèles ouverts, cette annonce change le calcul économique de l'inférence locale. Ne plus dépendre du cloud pour un modèle de 70 à 300 milliards de paramètres réduit la latence, élimine les coûts variables par requête et simplifie la conformité des données. Les modèles quantifiés open source disponibles sur Hugging Face, de Llama à Qwen en passant par Mistral, deviennent directement exploitables sur une seule machine. La barrière d'entrée pour l'IA on-premise vient de baisser d'un cran.

Sources : AMD Blog · ServeTheHome · WCCFTech · Digital Trends