Heretic : l'outil gratuit qui désarme Llama et Gemma en dix minutes

Une enquête du FT révèle qu'un outil GitHub appelé Heretic supprime les garde-fous de Llama 3.3 et Gemma en moins de dix minutes, générant des instructions sur les armes biologiques et des logiciels malveillants.

Open SourceSécurité

Heretic : l'outil gratuit qui désarme Llama et Gemma en dix minutes

Une enquête conjointe du Financial Times et du groupe de recherche en sécurité IA Alice a mis en lumière une faille structurelle dans le modèle open source. Des versions modifiées de Llama 3.3 (Meta) et Gemma (Google) circulent librement sur le web, capables de fournir des instructions sur la fabrication d'armes biologiques, de générer des logiciels malveillants et de produire du contenu d'exploitation sexuelle sur mineur. L'outil utilisé pour obtenir ce résultat s'appelle Heretic. Il est gratuit, disponible sur GitHub, et ne nécessite aucun matériel spécialisé.

Illustration d'une carte PCB avec les logos Meta et Google sur des circuits électroniques, éclairée par une lumière terracotta dramatique sur fond quasi-noir

L'ablitération : une technique en dix minutes

Le procédé au cœur de l'enquête porte un nom technique : l'ablitération. Il consiste à effacer systématiquement les limites éthiques et légales encodées dans un modèle au moment de l'entraînement. Heretic, créé par le développeur Philipp Emanuel Weidmann, automatise ce processus. Weidmann a supprimé les protections du modèle Gemma de Google dans les 90 minutes suivant sa mise en ligne publique.

Une fois les garde-fous retirés, les modèles modifiés répondent sans restriction aux requêtes que les versions originales refusent. Lors des tests du FT, Gemma modifiée a fourni les instructions pour disperser du chlore gazeux dans une salle bondée et généré un logiciel malveillant opérationnel pour voler des données bancaires. Llama 3.3 modifié a calculé la dose létale de ricine par kilogramme de poids corporel pour obtenir 50 % de chances de décès.

L'ampleur du phénomène dépasse le simple exercice de démonstration. Weidmann indique que son outil a déjà été utilisé pour produire plus de 3 500 variantes "décensurées", cumulant 13 millions de téléchargements depuis l'an dernier.

Un problème de chaîne d'approvisionnement, pas seulement de modèle

La distinction est centrale dans les analyses qui suivent cette révélation. Une fois qu'un modèle est cloné et modifié hors ligne, les développeurs originaux perdent toute capacité d'intervention ou de contrôle. Le problème ne se situe plus au stade de l'entraînement, mais dans la distribution. C'est ce que soulignait déjà la compromission de LiteLLM sur PyPI en avril 2026 : dès lors qu'un composant IA intègre la chaîne d'outillage d'un développeur, sa traçabilité devient critique.

Mitch Ashley, vice-président au cabinet Futurum Group, formule le diagnostic ainsi : « Les garde-fous comptent, mais le vrai test, c'est de savoir si la sécurité survit aux modifications réelles, au déploiement et aux usages malveillants. » Il appelle les entreprises à mettre en place une gouvernance des modèles dérivés, un suivi de provenance et des contrôles à l'exécution.

Des chercheurs de Microsoft ont par ailleurs publié des résultats montrant qu'une seule instruction d'entraînement cachée peut "désaligner" plusieurs modèles simultanément, y compris des systèmes de Meta, Google, DeepSeek, Mistral et Qwen. Ce résultat renforce l'hypothèse que les mécanismes de sécurité des modèles sont structurellement plus fragiles que les entreprises ne l'admettent publiquement. Les risques liés aux modèles ouverts avaient déjà été identifiés lors de la fuite du modèle Claude Mythos d'Anthropic, mais dans un contexte de modèle propriétaire : la vulnérabilité s'avère ici encore plus difficile à circonscrire sur les poids ouverts.

Ce que ça signifie pour vous

Pour les développeurs qui utilisent Llama ou Gemma dans leurs projets, la question n'est plus théorique. L'existence de 13 millions de téléchargements de variantes modifiées signifie que des modèles décensurés circulent dans des pipelines d'inférence, parfois sans que les intégrateurs le sachent. Vérifier la provenance d'un modèle avant déploiement, surveiller les appels à l'exécution et préférer les versions signées officiellement par Meta ou Google devient une précaution minimale. Pour les décideurs, la question de la responsabilité légale s'ouvre : si un produit intègre un modèle modifié à l'insu de son éditeur, qui répond de ses sorties?

Sources : Techstrong.ai · Irish Times · eWeek · AI Weekly