Meta Llama 4 : Scout et Maverick redéfinissent l'open source multimodal

Meta a publié Llama 4 Scout et Maverick le 5 avril. Deux modèles MoE multimodaux natifs qui surpassent GPT-4o et Gemini 2.0 Flash, disponibles gratuitement sur Hugging Face.

MetaModèles IAOpen Source

Meta Llama 4 : Scout et Maverick redéfinissent l'open source multimodal

Le 5 avril 2026, Meta a mis en ligne deux nouveaux modèles de la famille Llama 4 : Scout et Maverick. Les deux sont téléchargeables gratuitement sur llama.com et Hugging Face. Leur particularité tient dans leur architecture MoE (Mixture of Experts) et leur capacité multimodale native, sans nécessiter de module externe pour traiter images, textes et vidéos.

Llama 4 Scout et Maverick de Meta : deux modèles open source multimodaux sur fond sombre

Architecture et performances

Les deux modèles partagent le même nombre de paramètres actifs : 17 milliards. La différence tient dans le nombre d'experts. Scout en dispose de 16, pour un total de 109 milliards de paramètres. Maverick monte à 128 experts, soit 400 milliards de paramètres au total. Cette architecture MoE permet d'activer seulement une fraction des paramètres à chaque inférence, ce qui réduit considérablement les coûts de calcul à performance équivalente.

Scout tient sur un seul GPU H100 (en quantisation Int4) et dispose d'une fenêtre de contexte de 10 millions de tokens, la plus longue jamais proposée sur un modèle open source. Maverick nécessite un hôte H100 complet, avec une fenêtre de contexte d'un million de tokens. Les deux modèles ont été distillés depuis Llama 4 Behemoth, un modèle de 288 milliards de paramètres actifs que Meta garde pour l'instant en interne.

Sur les benchmarks publiés, Maverick surpasse GPT-4o et Gemini 2.0 Flash sur la grande majorité des évaluations standards et dépasse le score de 1400 sur LMArena. Scout, lui, se positionne au-dessus de Gemma 3, Gemini 2.0 Flash-Lite et Mistral 3.1 sur les tâches de raisonnement et de compréhension d'images.

Un entraînement inédit sur 30 000 milliards de tokens

Les modèles Llama 4 ont été entraînés sur plus de 30 000 milliards de tokens, incluant du texte, des images et des vidéos. C'est ce volume d'entraînement multimodal dès l'origine, sans ajout tardif de modules visuels, qui distingue cette génération de ses prédécesseurs. Scout montre notamment des capacités avancées en ancrage visuel : il peut aligner une réponse texte avec une zone précise d'une image, une aptitude utile pour le diagnostic médical, l'inspection industrielle ou l'analyse de documents.

La licence reste souverte, avec des conditions similaires à celles des versions précédentes. Les usages commerciaux sont autorisés sous conditions. Meta a annoncé des détails supplémentaires sur sa feuille de route lors de la LlamaCon, prévue le 29 avril.

Ce que ça signifie pour vous

Pour les développeurs, Llama 4 représente un saut qualitatif concret. Un modèle qui surpasse GPT-4o sur les benchmarks standards, téléchargeable gratuitement et utilisable sans appel API tiers, change le calcul économique de nombreux projets. La fenêtre de 10 millions de tokens sur Scout ouvre des cas d'usage nouveaux : analyse de longues bases de code, traitement de corpus documentaires entiers, conversation sur de très longues sessions. Pour les créateurs qui construisent des outils sur des modèles fondamentaux, Maverick devient une référence sérieuse à intégrer dans leurs comparaisons.

Sources : Meta AI Blog · Hugging Face · Llama.com · RunPod Blog