SubQ : la startup qui prétend avoir résolu le problème de mise à l'échelle des LLM

La startup Subquadratic a lancé SubQ, un LLM avec 12 millions de tokens de contexte fondé sur une attention linéaire, à un coût cinq fois inférieur aux modèles frontier actuels.

Modèles IAStartupsDéveloppeurs

SubQ : la startup qui prétend avoir résolu le problème de mise à l'échelle des LLM

Le 5 mai 2026, la startup Subquadratic est sortie de la discrétion avec une promesse que peu avaient osé formuler aussi clairement : avoir recodé depuis les fondations l'architecture des LLM pour que les coûts d'inférence ne croissent plus de façon exponentielle avec la longueur du contexte.

Puce électronique en gros plan sur un circuit imprimé sombre, logo Subquadratic gravé sur la surface métallique, éclairage cinématographique

Une architecture qui rompt avec l'attention classique

Le problème fondamental des LLM est bien documenté. Le mécanisme d'attention standard a une complexité quadratique : doubler la longueur du contexte multiplie par quatre les calculs requis, et donc les coûts. C'est ce plafond structurel qui explique pourquoi même les modèles les plus avancés peinent à dépasser quelques centaines de milliers de tokens de façon économiquement viable en production.

Subquadratic remplace ce mécanisme par une approche baptisée Subquadratic Sparse Attention (SSA). L'attention y évolue de façon linéaire avec la longueur du contexte. Résultat annoncé : 52 fois plus rapide que FlashAttention à un million de tokens, et un coût d'inférence cinq fois inférieur à Claude Opus ou GPT-5.5 pour des charges comparables. La fenêtre de contexte opérationnelle atteint 12 millions de tokens, soit environ 47 fois les 256 000 tokens du Mistral Medium 3.5, lui-même considéré comme généreux sur ce critère.

Le modèle SubQ 1M-Preview est disponible via API. La société n'a pas précisé si les poids seront publiés sous licence ouverte.

29 millions de dollars, 500 millions de valorisation, et un scepticisme immédiat

L'équipe fondatrice regroupe Justin Dangel (CEO, entrepreneur en série) et Alexander Whedon (CTO, ancien directeur de l'IA générative chez Meta et TribeAI). Le tour de seed a réuni 29 millions de dollars à une valorisation annoncée d'environ 500 millions. Parmi les investisseurs figurent Justin Mateen, cofondateur de Tinder, et Javier Villamizar, ex-SoftBank, ainsi que plusieurs fonds ayant accompagné OpenAI, Anthropic et Stripe.

La réception de la communauté scientifique n'a pas été unanime. VentureBeat a relevé que la revendication d'un gain d'efficacité de 1 000 fois a suscité une demande de preuves indépendantes de la part de plusieurs chercheurs. L'histoire récente du secteur invite effectivement à la prudence : Magic.dev avait annoncé en 2024 un modèle avec 100 millions de tokens de contexte, levé 500 millions de dollars sur la foi de ces chiffres, et n'avait toujours pas fourni de démonstration publique convaincante en début d'année 2026.

SubQ est parvenu à une chose que Magic.dev n'avait pas faite : rendre le modèle disponible via API dès son annonce, ce qui permet une évaluation externe directe.

Ce que ça signifie pour vous

Pour un développeur qui travaille sur des cas d'usage nécessitant de très longs contextes (analyse de codebase complète, ingestion de documents juridiques volumineux, traitement de corpus médicaux), SubQ représente une alternative à évaluer sérieusement sur le plan tarifaire, à condition que les benchmarks résistent à un audit indépendant. L'efficacité d'inférence est devenue un axe de compétition majeur : des services comme Featherless.ai, spécialisé dans l'inférence serverless de modèles ouverts, illustrent bien cette tendance à réévaluer le coût par token comme critère de sélection. La recommandation pratique reste d'attendre une évaluation externe avant d'intégrer SubQ en production, et de tester sur des cas réels représentatifs de votre charge de travail.

Sources : VentureBeat · eWeek · DataCamp · Subquadratic