3 min de lecture
Microsoft lance trois modèles MAI et s'attaque à la voix, l'image et la transcription
Le 2 avril, Microsoft a publié MAI-Transcribe-1, MAI-Voice-1 et MAI-Image-2 sur Azure Foundry. Trois modèles fondamentaux construits en interne, développés par l'équipe MAI Superintelligence de Mustafa Suleyman.
Microsoft lance trois modèles MAI et s'attaque à la voix, l'image et la transcription
Le 2 avril 2026, Microsoft a annoncé trois nouveaux modèles fondamentaux disponibles sur Azure Foundry : MAI-Transcribe-1, MAI-Voice-1 et MAI-Image-2. Ces modèles sont développés par l'équipe MAI Superintelligence, une division de recherche formée en novembre 2025 et dirigée par Mustafa Suleyman, PDG de Microsoft AI. Ce lancement marque un tournant dans la stratégie de l'entreprise : après des années à s'appuyer sur les modèles d'OpenAI, Microsoft construit désormais ses propres capacités fondamentales.
Trois modèles spécialisés, une stratégie d'ensemble
MAI-Transcribe-1 est un modèle de reconnaissance vocale couvrant 25 langues. Il affiche un taux d'erreur moyen de 3,8 % sur le benchmark FLEURS, ce qui lui vaut la première place parmi les 25 langues testées. Sa vitesse est présentée comme 2,5 fois supérieure à l'offre Azure Fast existante. Le tarif de départ est fixé à 0,36 dollar par heure.
MAI-Voice-1 est un modèle de génération vocale capable de produire 60 secondes d'audio en une seconde. Il permet de créer une voix personnalisée à partir d'un échantillon, sans entraînement complémentaire. Le prix démarre à 22 dollars par million de caractères, un positionnement compétitif face aux offres de ElevenLabs ou Cartesia.
MAI-Image-2 est un modèle de génération d'images texte-vers-image. Dès son lancement, il s'est classé troisième sur l'Arena.ai dans la catégorie modèles image, derrière Gemini et GPT-Image-1 d'OpenAI. Les trois modèles sont disponibles dans Azure Foundry et pour certains dans le MAI Playground.
Une émancipation progressive vis-à-vis d'OpenAI
Le contexte de ce lancement mérite attention. Microsoft est historiquement le premier investisseur d'OpenAI, avec plus de 13 milliards de dollars engagés. Pendant des années, Azure a servi de vitrine commerciale aux modèles GPT. La création de l'équipe MAI Superintelligence et le lancement de modèles propriétaires signalent une volonté de ne plus dépendre exclusivement d'un fournisseur externe, même si ce fournisseur est aussi un partenaire stratégique.
Cette logique est économiquement lisible : développer ses propres modèles permet à Microsoft de contrôler ses coûts d'inférence, de différencier son offre Azure et de répondre plus rapidement aux besoins de ses clients entreprise. Elle comporte un risque : froisser OpenAI à un moment où les deux entreprises négocient un renouvellement de leur accord de partenariat. Aucune des deux parties n'a commenté publiquement cette dimension.
Les résultats techniques sont réels mais doivent être mis en perspective. MAI-Transcribe-1 performe bien sur des langues à ressources abondantes. Les langues moins représentées dans les données d'entraînement pourraient afficher des résultats plus variables. MAI-Image-2 entre sur un marché saturé, où Adobe Firefly, Midjourney et Imagen 4 de Google occupent des positions établies.
Ce que ça signifie pour vous
Pour les développeurs qui travaillent sur des pipelines voix, de la transcription multilingue ou de la génération d'images dans un environnement Azure, ces modèles sont directement disponibles et tarifés de manière lisible. Le fait qu'ils soient construits par Microsoft, sans couche intermédiaire, simplifie les contrats SLA et la localisation des données pour les clients soumis à des contraintes réglementaires, notamment en Europe.
Pour les créateurs de contenu, MAI-Voice-1 ouvre une piste pour automatiser la production de narration ou de doublage en plusieurs langues à coût réduit, sans passer par des outils tiers spécialisés. La comparaison avec ElevenLabs sera inévitable dans les semaines qui viennent.
Sources : Microsoft AI · TechCrunch · VentureBeat · Silicon Republic
