Kimi K2.7-Code : Moonshot AI publie un modèle de codage open source d'un trillion de paramètres

Moonshot AI lance Kimi K2.7-Code, un modèle MoE open source spécialisé dans le codage agentique, avec 30% moins de tokens de raisonnement et des gains à deux chiffres sur ses benchmarks.

Open SourceModèles IADéveloppeurs

Kimi K2.7-Code : Moonshot AI publie un modèle de codage open source d'un trillion de paramètres

Moonshot AI a mis en ligne le 12 juin 2026 son dernier modèle de codage, Kimi K2.7-Code. Disponible sous licence Modified MIT sur Hugging Face et via l'API Kimi, il vise les cas d'usage où un agent logiciel doit planifier, éditer et déboguer du code sur de longues séquences, sans intervention humaine à chaque étape.

Un laptop ouvert affichant l'interface Kimi Code, avec le logo Moonshot AI visible sur le boîtier, éclairage cinématographique sombre

Architecture et performances

Kimi K2.7-Code repose sur une architecture Mixture-of-Experts : un trillion de paramètres au total, 32 milliards activés par token, répartis sur 384 experts. La fenêtre de contexte atteint 256 000 tokens. Un encodeur visuel MoonViT de 400 millions de paramètres permet l'ingestion d'images et de vidéos en entrée.

Les gains annoncés par Moonshot AI sur ses propres benchmarks sont nets. Le modèle progresse de 21,8% sur Kimi Code Bench v2 par rapport à K2.6, de 11% sur Program Bench et de 31,5% sur MLS Bench Lite, un test de support multi-langages couvrant Python, Rust et Go. Sur MCP Mark Verified, qui évalue la capacité à invoquer correctement des outils via le Model Context Protocol, K2.7-Code atteint 81,1 points, devant Claude Opus 4.8 (76,4) selon les chiffres de l'éditeur.

Il faut noter que l'ensemble de ces benchmarks sont publiés par Moonshot AI lui-même. Aucune évaluation indépendante n'était disponible au moment de la sortie. Face aux modèles propriétaires frontière, les résultats restent en retrait : GPT-5.5 affiche 69 points sur Kimi Code Bench v2, contre 62 pour K2.7-Code.

Moins de tokens, moins de coûts

L'argument économique mis en avant par Moonshot AI mérite attention. K2.7-Code utiliserait environ 30% moins de tokens de raisonnement que son prédécesseur, ce que l'équipe appelle la réduction du "sur-raisonnement". Dans un contexte agentique, où un modèle enchaîne des centaines d'étapes de planification, d'exécution et de vérification, chaque token de pensée se facture comme un token de sortie. Une réduction de 30% sur ce poste peut se traduire par des économies substantielles sur des pipelines en production.

Le tarif officiel est de 0,95 dollar par million de tokens en entrée et 4 dollars en sortie, avec un prix réduit à 0,19 dollar pour les tokens en cache. À titre de comparaison, Claude Opus 4.8 s'affiche à 5 dollars l'entrée et 25 dollars la sortie.

L'auto-hébergement est possible via vLLM, SGLang ou KTransformers, mais les poids représentent environ 595 Go sur disque, ce qui en fait un déploiement réservé aux infrastructures serveur. La quantification INT4 est incluse nativement.

Ce que ça signifie pour vous

Pour les développeurs qui utilisent des agents de codage comme Claude Code, Codex ou Grok Build, K2.7-Code ouvre une troisième voie compétitive sur les tâches d'ingénierie logicielle de longue durée. Les poids ouverts sous Modified MIT permettent une intégration commerciale avec attribution, ce qui intéresse les équipes cherchant à éviter une dépendance exclusive aux modèles fermés. En revanche, le mode de raisonnement ne peut pas être désactivé et les paramètres d'échantillonnage sont verrouillés côté serveur, ce qui limite la personnalisation fine. La course à la cadence de Moonshot AI (cinq versions majeures en moins d'un an) soulève aussi la question de la stabilité à long terme des modèles pour les équipes qui construisent des produits sur cette base.

La montée en puissance des modèles chinois sur les usages mondiaux avait déjà été documentée en avril 2026. K2.7-Code s'inscrit dans cette dynamique, en ajoutant le codage agentique spécialisé à l'arsenal open source chinois, aux côtés de GLM-5 de Zhipu AI sur les tâches frontier généralistes.

Sources : MarkTechPost · Crypto Briefing · Hugging Face