Cohere Transcribe : le modèle ASR open source qui détrône Whisper

Cohere a publié fin mars un modèle vocal open source qui prend la première place du classement mondial ASR, devant Whisper Large v3.

Open SourceDéveloppeurs

Cohere Transcribe : le modèle ASR open source qui détrône Whisper

Le 26 mars 2026, Cohere a publié son premier modèle dédié à la reconnaissance vocale automatique. Disponible gratuitement sur Hugging Face sous licence Apache 2.0, Cohere Transcribe prend immédiatement la première place du classement Open ASR de la plateforme, devant des références établies comme Whisper Large v3 d'OpenAI ou Scribe v2 d'ElevenLabs.

Onde sonore analysée par une architecture neuronale sur fond sombre

Une architecture pensée pour la vitesse

Cohere Transcribe repose sur une architecture encoder-decoder de 2 milliards de paramètres. Son encodeur est un Fast-Conformer, une variante conçue pour traiter des séquences audio longues plus efficacement. Plus de 90% des paramètres du modèle sont concentrés dans cet encodeur. Le décodeur, délibérément allégé, est chargé de la seule conversion finale en texte.

Ce choix architectural a des conséquences mesurables sur les performances d'inférence. Cohere annonce un facteur de rapidité jusqu'à trois fois supérieur à celui des autres modèles ASR dédiés de taille comparable. Sur le leaderboard Open ASR de Hugging Face, le modèle affiche un taux d'erreur sur les mots (WER) moyen de 5,42%, contre des valeurs sensiblement plus élevées pour Whisper Large v3, ElevenLabs Scribe v2 et Qwen3-ASR-1.7B. En conditions de référence contrôlées sur LibriSpeech Clean, le WER descend à 1,25%. Sur les transcriptions de réunions multi-locuteurs (AMI), il atteint 8,15%.

Le modèle a été entraîné sur 500 000 heures de paires audio-transcription, complétées par des données synthétiques générées après plusieurs cycles d'analyse des erreurs. Il couvre 14 langues, dont le français, l'anglais, l'allemand, l'espagnol, le mandarin, l'arabe et le japonais.

Gratuit, open source et déjà dans Azure Foundry

Les poids du modèle sont téléchargeables sur Hugging Face, et l'usage via l'API Cohere est proposé sans frais. Pour Cohere, c'est une stratégie de visibilité nette dans un marché où OpenAI Whisper reste la référence par défaut depuis plusieurs années, et où Microsoft venait d'annoncer son propre modèle MAI-Transcribe-1 le 2 avril.

Microsoft a d'ailleurs intégré Cohere Transcribe dans Azure AI Foundry quelques jours après sa publication, aux côtés de Nanbeige 4.1-3B et Octen Embedding. Pour les équipes qui déploient des solutions de transcription en entreprise, le modèle est désormais accessible via l'infrastructure cloud Azure sans configuration supplémentaire.

La comparaison avec MAI-Transcribe-1 sera inévitable dans les prochaines semaines. Les deux modèles visent le même segment, la transcription d'entreprise, avec des approches différentes. Cohere mise sur l'open source et la légèreté. Microsoft s'appuie sur l'intégration dans son écosystème propriétaire. Les benchmarks croisés entre les deux manquent encore, mais les performances publiées de Cohere Transcribe sur les jeux de données standards sont difficiles à ignorer.

Ce que ça signifie pour vous

Pour un développeur qui cherche une solution de transcription déployable en local, Cohere Transcribe représente une option sérieuse. Ses 2 milliards de paramètres permettent de le faire tourner sur un GPU grand public. La licence Apache 2.0 autorise une utilisation commerciale sans restriction. La vitesse d'inférence, trois fois supérieure à la concurrence directe, est un avantage concret pour les usages temps réel comme le sous-titrage, la prise de notes en réunion ou la transcription de podcasts. Le modèle constitue aussi une alternative plus précise à Whisper pour les équipes qui cherchent à réduire leur taux d'erreur en production sans changer de stack d'inférence.

Sources : Cohere · Hugging Face · TechCrunch · Microsoft Azure Foundry