Grok 4.20 : xAI lance un modèle 60 % moins cher avec un record d'exactitude

xAI a lancé Grok 4.20 pour les développeurs avec trois variantes API. Le modèle affiche le taux d'hallucination le plus bas du secteur, mais se classe seulement 8e sur l'Intelligence Index.

Modèles IADéveloppeurs

Grok 4.20 : xAI lance un modèle 60 % moins cher avec un record d'exactitude

xAI a déployé Grok 4.20 dans ses API pour développeurs le 25 mars 2026. Trois configurations sont disponibles : raisonnement, non-raisonnement et multi-agent. Le tarif est réduit de 60 % par rapport au modèle précédent. Le résultat sur les benchmarks est ambivalent : un record sur la mesure des hallucinations, mais une position modeste au classement général de l'intelligence.

Illustration éditoriale du modèle Grok 4.20 de xAI, interface développeur et métriques IA

Un modèle économique qui cible les développeurs

Grok 4.20 a été conçu comme une offre API avant tout. La baisse de 60 % du prix d'accès par rapport à son prédécesseur le positionne directement sur le terrain des modèles économiques comme GPT-4o mini ou Gemini Flash. Les trois variantes disponibles répondent à des cas d'usage différents : la version raisonnement pour les tâches analytiques complexes, la non-raisonnement pour les réponses rapides à faible latence, et la version multi-agent pour les architectures d'automatisation.

xAI, qui a clôturé un tour de table de Série E à 20 milliards de dollars (dépassant l'objectif initial de 15 milliards), dispose des ressources nécessaires pour maintenir cette politique tarifaire agressive. Bloomberg signale par ailleurs que l'entreprise d'Elon Musk recrute activement des experts financiers de Wall Street pour spécialiser Grok sur les données de marchés, les modèles de crédit et la finance de niche.

Le paradoxe des benchmarks

Le chiffre le plus cité autour de Grok 4.20 est son taux de non-hallucination de 78 % sur l'Artificial Analysis Omniscience Test. C'est le meilleur résultat jamais enregistré sur ce test parmi les modèles disponibles au moment de la publication. Dit autrement, Grok 4.20 fabrique moins de réponses fausses présentées comme vraies que n'importe quel autre modèle testé jusqu'ici.

La nuance vient du classement sur l'Intelligence Index du même Artificial Analysis, où Grok 4.20 se situe en 8e position avec un score de 48. Cet indice agrège les performances sur des tâches variées : résolution de problèmes, compréhension de texte, génération de code et capacités de raisonnement général. Un modèle peut donc exceller sur la fiabilité des réponses tout en restant dans la moyenne haute sur la puissance brute. Les deux métriques ne mesurent pas la même chose.

Pour les équipes qui déploient des agents ou des pipelines de traitement automatisé, un taux d'hallucination bas est souvent plus utile qu'un score d'intelligence élevé. Les erreurs de fait dans une chaîne de production coûtent cher à corriger. En revanche, pour des tâches de raisonnement avancé ou de génération de code complexe, les modèles de tête de classement conservent un avantage.

Ce que ça signifie pour vous

Si vous développez des applications avec des LLMs, Grok 4.20 vaut la peine d'être testé pour les cas où la fiabilité factuelle est prioritaire, notamment dans les agents de recherche, les résumés automatiques ou les pipelines de traitement de données. La baisse de tarif rend l'expérimentation moins coûteuse. Pour les projets exigeant le meilleur raisonnement disponible, les comparaisons avec Claude, Gemini et GPT-4o restent nécessaires. Aucun modèle ne domine sur tous les axes simultanément, et Grok 4.20 ne fait pas exception à cette règle.

Sources : Winbuzzer · AIBase · Bloomberg · Artificial Analysis