Mistral Small 4 : un modèle open source qui remplace Small 3, à fraction du coût

Mistral sort Small 4, un modèle MoE de 119 milliards de paramètres sous licence Apache 2.0, qui unifie raisonnement, vision et code dans un seul déploiement.

Modèles IAOpen Source

Mistral Small 4 : un modèle open source qui remplace Small 3, pour une fraction du coût

Mistral AI a sorti Mistral Small 4 le 16 mars 2026. Ce modèle Mixture-of-Experts de 119 milliards de paramètres rassemble dans un seul fichier ce qui nécessitait jusqu'ici trois modèles distincts : le raisonnement avancé, la compréhension d'images et la génération de code. Avec une licence Apache 2.0 et un partenariat signé avec NVIDIA, Mistral affirme sa stratégie : l'open source comme rempart contre les modèles fermés.

Serveurs IA épurés avec branding Mistral et NVIDIA, ambiance bleue nuit, style éditorial tech

Une architecture MoE pensée pour l'efficacité

L'architecture de Small 4 repose sur 128 experts, dont seulement 4 sont activés à chaque inférence. Résultat : 119 milliards de paramètres au total, mais seulement 6 milliards mobilisés à chaque calcul. C'est le principe fondamental des modèles Mixture-of-Experts, qui permettent de massifier la capacité d'un modèle sans multiplier les coûts de traitement.

Par rapport à Small 3, les gains mesurés sont nets. La latence baisse de 40 % dans une configuration optimisée. Le débit triple, passant à 3 fois plus de requêtes par seconde dans un déploiement orienté volume. La fenêtre de contexte atteint 256 000 tokens, suffisant pour traiter de longs documents ou des bases de code entières.

Small 4 intègre aussi un paramètre de contrôle inédit chez Mistral : reasoning_effort. L'utilisateur ou le développeur peut choisir entre une réponse rapide et une réflexion approfondie selon le besoin, sans changer de modèle.

Des performances qui défient des modèles bien plus grands

Mistral compare Small 4 directement à GPT-OSS 120B d'OpenAI sur plusieurs benchmarks. Sur LiveCodeBench (coding), Small 4 dépasse GPT-OSS 120B tout en produisant 20 % de sorties en moins. Sur MMLU Pro (culture générale et raisonnement), il se situe au niveau de Mistral Medium 3.1 et Large 3, ses propres modèles de classe supérieure.

Sur le benchmark AA LCR (raisonnement long), Small 4 obtient un score de 0,72 avec seulement 1 600 caractères de sortie en moyenne, là où des modèles Qwen équivalents ont besoin de 5 800 à 6 100 caractères pour un résultat comparable. Moins de verbosité, résultats équivalents.

Le modèle est disponible dès le premier jour en conteneurs NIM sur NVIDIA, sur Hugging Face, via l'API Mistral La Plateforme, et dans les principaux frameworks d'inférence dont vLLM et llama.cpp.

Ce que ça signifie pour vous

Pour un développeur ou une entreprise qui auto-héberge ses modèles, Small 4 change le calcul. Un seul modèle remplace trois déploiements distincts. La licence Apache 2.0 autorise l'usage commercial sans restriction. Et le fait que NVIDIA l'intègre dès le premier jour dans ses NIM containers facilite l'intégration dans des infrastructures GPU existantes.

La limite reste la taille du modèle : 119 milliards de paramètres demandent du matériel conséquent pour un déploiement local. L'avantage MoE atténue ce coût à l'inférence, mais pas à la mémoire. Sur un cloud ou une infrastructure partagée, c'est viable. Sur un serveur individuel limité, la question mérite d'être posée avant de migrer.

Sources : Mistral AI · VentureBeat · NVIDIA NIM · Awesome Agents