La « distillation » de l’IA, casse du siècle… ou faux procès ?
La « distillation » de l’IA, casse du siècle… ou faux procès ?
La technique est aussi ancienne que la civilisation. Des premiers parfums en Mésopotamie jusqu’aux whiskys écossais et raffineurs de pétroles modernes, la distillation est l’art d’extraire l’essentiel d’une matière. Dans certains cas même, ce qu’elle a de plus précieux. Surprise : cela s’applique également à l’immatérielle intelligence artificielle. Bien entendu, ici, nul besoin de faire chauffer quoi que ce soit avec un alambic. « La distillation, est un transfert de connaissances d’un modèle d’IA vers un autre. On génère des données avec un grand modèle (le « modèle enseignant ») et on entraîne un modèle plus petit à imiter ses réponses, résume Loubna Ben Allal, ingénieure au sein de l’entreprise franco-américaine Hugging Face. L’objectif est d’obtenir un modèle moins coûteux à faire tourner, qui conserve l’essentiel des capacités de son aîné. »
Tout le monde l’emploie. « La distillation est une méthode d’entraînement largement utilisée et légitime », écrit Anthropic, l’un des leaders du marché. L’utilisation de données dites synthétiques, qui ne sont pas directement issues de vrais corpus de texte, est ainsi devenue monnaie courante dans le secteur. Le problème, déplore le créateur de l’agent conversationnel Claude, c’est que la distillation de l’IA peut s’apparenter à de la triche quand elle est réalisée sur ses modèles… par ses concurrents. Anthropic a récemment mis en cause trois rivaux, tous basés en Chine : le désormais célèbre DeepSeek, et les moins connus MiniMax et Moonshot. L’Américain a dénoncé l’utilisation, sur sa plateforme, de « 16 millions d’échanges avec Claude » à partir d’environ « 24 000 comptes frauduleux », afin de le copier.
Pour ces outsiders, il s’agit d’une manière de rattraper leur retard, évalué selon les estimations à plusieurs mois sur les performances des modèles dits « frontières » de la Silicon Valley. Tout en jonglant avec les contraintes : comme en Europe, les capitaux y sont moins importants. Surtout, ces sociétés chinoises sont privées de puces GPU de marque Nvidia, les plus performantes, très utiles pour l’entraînement des modèles.
Distiller n’est pas gagner
Alors, la Chine compenserait en distillant. C’est ce qui se murmure en Californie, où se concentrent les meilleurs laboratoires d’IA comme Anthropic, mais aussi Google (Gemini) et OpenAI (ChatGPT). Ces acteurs se sont rassemblés au sein du Frontier Model Forum pour lutter contre ce phénomène complexe à détecter. « Il n’existe pas de signature claire et universelle. On parle parfois de behavioral fingerprinting (détecter des comportements ou formulations caractéristiques du modèle source) ou de watermarking (intégrer des marqueurs discrets dans les réponses). Mais ces techniques restent expérimentales », assure Loubna Ben Allal. Anthropic a donc appelé à serrer les rangs. Une plainte entendue au plus haut niveau de l’administration américaine. Un mémorandum de Michael Kratsios, conseiller scientifique de Donald Trump, a promis fin avril une attention accrue sur le problème du partage de renseignements.
Les Américains forcent un peu le trait sur le sujet. D’abord, la distillation n’est pas l’apanage des Chinois. Elle se pratique tout autant aux Etats-Unis et en Europe, entre adversaires. Ce secret de polichinelle a été ébruité par Elon Musk, patron de xAI, lors d’un récent procès face à OpenAI sur un sujet distinct. « La distillation est utilisée bien au-delà des grands laboratoires : chercheurs indépendants, start-up, projets open source y ont massivement recours pour développer des modèles performants sans les ressources des géants du secteur », confirme la chercheuse Loubna Ben Allal.
Par ailleurs, si la distillation est une méthode éprouvée pour créer des versions plus petites et rapides d’un produit à destination des entreprises notamment, elle n’est pas une baguette magique. Questionné sur les millions d’échanges dénoncés par Anthropic, Antoine Bosselut, professeur adjoint à l’École des sciences informatiques et de la communication de l’EPFL (Lausanne, Suisse), explique qu' »il en faudrait plus pour capturer l’ensemble des capacités de Claude ». Impossible de « copier » ex nihilo un ChatGPT. La distillation, quand elle est faite en interne au sein des laboratoires, expose aussi « à quel point le modèle est sûr de lui, quelles alternatives il a envisagé et où il a hésité », pointe le spécialiste. Le résultat est alors bien meilleur qu’avec une distillation pirate, opérée grâce à la connexion à une API, un accès à distance au service.
Dans ce contexte, les économies réalisées en distillant chez le concurrent, en GPU ou tout simplement en énergie, ne sont pas si importantes qu’espérées. « La contribution exacte de la distillation aux performances d’un modèle reste difficile à mesurer », confirme-t-on chez Hugging Face. Ce qui est certain, c’est qu’elle « ne remplace pas la phase de pré-entraînement qui consiste à ingérer des quantités massives de données issues du web pour construire les connaissances de base du modèle. De plus, les modèles distillés plafonnent souvent sous le niveau du modèle source, donc pour rester compétitif, l’innovation et la recherche fondamentale restent incontournables », souligne Loubna Ben Allal. Pour preuve : l’écart entre les derniers modèles chinois, dont celui de DeepSeek, et les Américains comme GPT-5.5 ou Mythos, reste significatif.
L’arroseur arrosé
Au fond, la distillation pose malgré tout deux problèmes. Un sécuritaire. Les garde-fous des grands modèles propriétaires sont déjà loin d’être infaillibles. Un modèle distillé peut être réentraîné pour produire ce que le modèle source refuse : instructions sensibles, contenus de désinformation, contournement des garde-fous, cyberattaques… L’argument est sérieux, particulièrement à l’heure de Mythos ou de GPT 5.5-cyber, présentés comme trop puissants pour être rendus publics.
L’autre sujet, qui agace particulièrement les Américains, est financier. Les modèles pourraient à terme se « commoditiser », nous expliquait récemment Julien Maldonato, associé au cabinet Deloitte. S’approcher des performances « frontières » et les proposer à moindre coût, comme le font les laboratoires chinois, suffit à capter des millions d’utilisateurs. DeepSeek en a fait la démonstration éclatante en janvier 2025, en provoquant une chute boursière historique de Nvidia et un vent de panique chez les Big Tech américaines. Pour des entreprises dont les valorisations reposent en grande partie sur l’avance technologique, voir l’écart se réduire en raison de quelques calculs distillés a de quoi inquiéter. D’autant que l’ère des agents IA percute de plein fouet celle des coûts. L’automatisation génère une forte consommation de tokens, donc des factures d’infrastructures et d’énergie toujours plus conséquentes. La Big Tech hésite encore : doit-elle faire payer le vrai prix de l’intelligence artificielle en lieu et place des abonnements lourdement subventionnés ? Ou doit-elle continuer à accumuler les pertes afin de ne pas freiner trop vite l’engouement des utilisateurs ? La rentabilité des leaders du marché, comme Anthropic et OpenAI, n’est attendue qu’à partir de 2028 pour le premier, 2030 pour l’autre.
Le président des Etats-Unis, Donald Trump, a peut-être eu l’occasion de discuter économie de l’IA avec son homologue Xi Jinping lors de sa visite en Chine, ces deux derniers jours. En attendant, certains souhaiteraient dégainer l’artillerie lourde contre la distillation. L’élu républicain du Michigan, Bill Huizenga, a déposé en avril un projet de loi pour « stopper le vol de modèles d’IA », assimilant la distillation à de l’espionnage. Sa mesure phare : permettre au département du Commerce d’inscrire les laboratoires concernés sur l’Entity List, la redoutée liste noire qui interdit tout commerce avec une entreprise américaine. Un pas qui, s’il est franchi, aurait des incidences bien plus profondes. Car derrière les questions sécuritaires et économiques de la distillation affleure en réalité un ultime enjeu : la consolidation d’une protection juridique, encore embryonnaire. Cette technique, en zone grise entre usage légal et pillage assumé, est un terrain idéal pour faire avancer les lignes. « La panique est utilisée afin de renforcer les barrières juridiques autour des modèles propriétaires, juge Pierre-Carl Langlais, co-fondateur de la start-up tricolore Pleias, qui entraîne de petits modèles de langage. Toutes les industries à forte croissance ont recours à ce genre d’étape. » Les répercussions seraient, ici, loin de toucher uniquement la Chine. Pour tout l’univers open source et pour une industrie européenne « qui n’a rien ou presque à protéger », cingle Pierre-Carl Langlais, ce serait une catastrophe.
Reste que cette quête est paradoxale. « Prétendre qu’un modèle est une propriété intellectuelle protégée alors qu’on a librement ingéré des livres, articles et données personnelles sous copyright pour l’entraîner a effectivement quelque chose de cynique », concède Antoine Bosselut, de l’EPFL. OpenAI, Anthropic et Meta font face à une cascade de procédures intentées par des éditeurs, des auteurs et des artistes qui leur reprochent précisément ce qu’ils dénoncent désormais : un usage non consenti de leur propriété intellectuelle. Au fond, la Silicon Valley n’est-elle pas tout simplement mauvaise joueuse ?
Related Post
- 15 avril 2026
Comment l’Iran a utilisé un satellite chinois pour espionner des bases américaines
Téhéran a-t-elle espionné des bases américaines avec l'appui de satellites chinois ? C'est ce que…
- 2 juin 2026