GPT-5.4 dépasse les humains à l'ordinateur : l'agent de bureau change de statut

Lancé le 5 mars 2026, GPT-5.4 est le premier modèle polyvalent à surpasser les humains sur OSWorld. Il peut piloter un ordinateur comme un opérateur humain, sans aide extérieure.

Modèles IADéveloppeurs

GPT-5.4 dépasse les humains à l'ordinateur : l'agent de bureau change de statut

Le 5 mars 2026, OpenAI a lancé GPT-5.4, son modèle le plus récent. La nouveauté structurelle n'est pas la performance brute sur les benchmarks habituels, mais une capacité intégrée qui change la nature même de ce que peut faire un modèle de langage : piloter un ordinateur mieux qu'un humain.

Interface de bureau informatique pilotée par une IA, curseur lumineux orange-rouge sur fond sombre, style cinématographique éditorial

Un modèle qui prend la main sur votre bureau

GPT-5.4 est le premier modèle polyvalent d'OpenAI à intégrer nativement le contrôle d'ordinateur. En pratique, il peut observer un environnement de bureau ou de navigateur via des captures d'écran, puis effectuer des actions directement : cliquer, saisir du texte, naviguer entre onglets, remplir des formulaires, lancer des scripts. Deux méthodes coexistent : l'écriture de code via la bibliothèque Playwright, qui automatise les interactions, et l'envoi direct de commandes clavier-souris en réponse aux captures visuelles.

Ce n'est pas la première fois qu'OpenAI tente cette approche. GPT-5.2 disposait déjà de capacités partielles dans ce domaine, mais ses résultats étaient hétérogènes. GPT-5.4 représente la première version où ces capacités sont présentées comme une fonctionnalité de premier rang, documentée et tarifée. Le modèle est proposé en deux variantes : une version standard et une version « Thinking » pour les tâches nécessitant un raisonnement approfondi. La fenêtre de contexte est d'un million de tokens. Le tarif démarre à 2,50 dollars par million de tokens en entrée.

OSWorld : un cap symbolique et concret

Le référentiel OSWorld-Verified mesure la capacité d'un modèle à naviguer dans un environnement de bureau complet à partir de captures d'écran et de commandes clavier-souris. Il s'agit de l'un des tests les plus proches de l'usage réel d'un agent de bureau autonome.

Sur ce référentiel, GPT-5.4 obtient un taux de réussite de 75,0 %. Les humains, testés dans les mêmes conditions, se situent à 72,4 %. GPT-5.2 était à 47,3 %. Le saut est considérable, et le franchissement du seuil humain est un marqueur symbolique fort pour l'ensemble du secteur.

Ce résultat ne signifie pas que GPT-5.4 remplace un opérateur humain sur l'ensemble des tâches de bureau. OSWorld-Verified est un protocole contrôlé, avec des tâches définies et un environnement stable. Les performances en conditions réelles, sur des interfaces variées et des scénarios imprévisibles, restent une question ouverte. Plusieurs chercheurs rappellent que les modèles de computer use échouent souvent sur des éléments visuels inhabituels, des flux d'authentification complexes ou des applications peu documentées.

Ce que ça signifie pour vous

Pour les développeurs, GPT-5.4 ouvre des possibilités d'automatisation qui n'existaient pas à ce niveau. Tester des interfaces graphiques, remplir des formulaires métier, extraire des données de logiciels sans API : ces tâches deviennent accessibles sans développement sur mesure. Les équipes QA et les intégrateurs d'outils internes sont directement concernés.

Pour les créateurs, les implications sont plus indirectes mais réelles. Si les agents de bureau atteignent ce niveau de fiabilité, des tâches de gestion administrative répétitives (soumission de contenus, suivi d'analyses, organisation de fichiers) pourraient être déléguées à des automatisations pilotées par GPT-5.4. La question centrale reste la même qu'à chaque avancée de ce type : les performances hors protocole sont-elles à la hauteur de ce que le benchmark laisse espérer ?

Sources : OpenAI · TechCrunch · AI Haven · NxCode