Google divise son TPU en deux puces spécialisées pour défier NVIDIA

Présentées au Google Cloud Next, les TPU 8t et 8i séparent l'entraînement de l'inférence et attaquent directement la domination de NVIDIA sur l'infrastructure IA.

HardwareGoogle

Google divise son TPU en deux puces spécialisées pour défier NVIDIA

Pour la première fois depuis la création de ses Tensor Processing Units en 2016, Google a présenté au Cloud Next 2026 une architecture en deux puces distinctes : le TPU 8t pour l'entraînement et le TPU 8i pour l'inférence. Ce changement de paradigme signale la fin du chip universel dans la course à l'infrastructure IA. C'est aussi, formellement, le défi le plus structuré que Google ait lancé à NVIDIA depuis des années.

Deux puces Google TPU 8t et 8i côte à côte sur un circuit imprimé sombre, éclairage cinématographique, logo Google visible en reflet

Deux puces, deux missions radicalement différentes

Le TPU 8t est taillé pour le pré-entraînement massif. Il embarque 216 Go de HBM3e avec 6 528 Go/s de bande passante, 128 Mo de SRAM en puce et 12,6 pétaFLOPS en précision FP4. Un superpod TPU 8t regroupe 9 600 puces, offre 2 pétaoctets de mémoire cumulée et délivre 121 exaFLOPS de puissance de calcul FP4. La performance d'entraînement est multipliée par 2,8 par rapport à la génération Ironwood, à coût équivalent.

Le TPU 8i, de son côté, est optimisé pour l'inférence à haute concurrence. Il propose 288 Go de HBM3e à 8 601 Go/s, 384 Mo de SRAM en puce (trois fois plus que la génération précédente) et 10,1 pétaFLOPS FP4. Cette quantité élevée de SRAM en puce permet de stocker le cache KV entièrement en silicium, ce qui réduit drastiquement la latence pour les modèles à contexte long. Le TPU 8i offre 80 % de meilleure performance par dollar que le TPU 7 Ironwood sur les charges d'inférence.

Les deux puces partagent un hôte commun : le CPU ARM Axion de Google. Elles supportent nativement PyTorch (via TorchTPU en préversion), JAX, vLLM et SGLang, ce qui facilite leur adoption dans les pipelines existants.

La stratégie de la bifurcation

Cette scission architecturale répond à une évolution majeure de l'industrie. Jensen Huang lui-même a déclaré 2026 « l'année de l'inférence », marquant le passage des charges de travail de l'entraînement vers la génération de tokens en temps réel. Google anticipe ce déplacement : entraîner un modèle frontalier exige une puissance de calcul brute et une grande mémoire HBM ; servir des millions de requêtes simultanées exige surtout une faible latence et un KV cache massif en puce.

L'approche de Google contraste avec celle de NVIDIA, qui a maintenu une architecture GPU unifiée. La question est de savoir si la spécialisation représente un avantage compétitif durable ou une prise de risque. Pour les clients cloud, le gain sur le papier est réel : une configuration dédiée à chaque phase du cycle de vie d'un modèle peut réduire les coûts opérationnels de façon significative. C'est d'ailleurs la même logique qui avait conduit Google à miser sur les CPU Intel Xeon pour l'inférence IA, avant de développer ses propres puces spécialisées. De son côté, NVIDIA continue de mettre en avant la polyvalence de ses superclusters Vera Rubin NVL72, dont les premières instances cloud sont attendues au second semestre 2026.

Ce que ça signifie pour vous

Pour les développeurs qui hébergent des modèles sur Google Cloud, le TPU 8i représente une option crédible et moins coûteuse que les GPU NVIDIA pour les charges d'inférence à grande échelle. La disponibilité générale est prévue pour plus tard en 2026. Pour les équipes qui pré-entraînent des modèles, le TPU 8t rivalise sérieusement avec les H200 et B100 de NVIDIA en termes de performance par dollar. L'intégration dans l'AI Hypercomputer de Google permet une gestion unifiée des deux types de puces. La vraie limite reste l'écosystème logiciel, encore plus riche côté NVIDIA : CUDA garde une longueur d'avance sur TorchTPU dans la plupart des équipes de recherche.

Sources : Google Blog · TechCrunch · The Register · Tom's Hardware