Data poisoning : la résistance discrète qui inquiète les géants de l'IA

Pendant deux ans, les éditeurs de modèles d'intelligence artificielle ont aspiré internet comme une éponge : articles, œuvres graphiques, photographies, thèses, codes sources, publications Reddit. Chaque token récupéré représentait un paramètre mieux entraîné, un modèle plus puissant. En 2026, la dynamique change. Des millions de contenus publiés en ligne ne sont plus simplement inutilisables pour l'entraînement — ils sont désormais activement toxiques pour les modèles qui tenteraient de les apprendre. Cette stratégie porte un nom : le data poisoning. Elle consiste à injecter, dans un contenu diffusé publiquement, des signaux imperceptibles à l'œil humain mais qui dégradent la qualité des modèles entraînés dessus. Longtemps cantonnée à des expérimentations universitaires, la technique est devenue en 2025-2026 un outil de négociation massivement adopté par les artistes, les rédactions indépendantes et — fait nouveau — par certaines entreprises qui veulent protéger leur contenu premium sans passer par des procès longs et incertains.

Comment fonctionne l'empoisonnement de données

Les deux outils les plus largement déployés viennent du laboratoire SAND Lab dirigé par Ben Zhao à l'Université de Chicago. Glaze, sorti en 2023, modifie subtilement l'image d'un artiste pour qu'elle conserve son apparence à l'œil humain mais qu'un modèle qui l'apprendrait comprenne un style pictural radicalement différent. Un portrait réaliste apparaîtrait, aux yeux d'un modèle diffusion, comme une peinture cubiste. Nightshade, lancé début 2024, va plus loin : il injecte un « poison » qui contamine les associations sémantiques du modèle. Un nombre suffisant d'images de chats empoisonnées peut conduire un modèle à générer systématiquement des vaches quand on lui demande un chat. Les mécanismes sont mathématiques, pas magiques. Chaque image est perturbée selon une direction dans l'espace latent du modèle cible (souvent Stable Diffusion ou Flux), de façon à maximiser la divergence entre la représentation apprise et la représentation humaine. Selon les chiffres publiés par SAND Lab en mars 2026, environ 3,8 millions d'images Nightshade-poisoned ont été téléchargées, et Glaze franchit les 11 millions de téléchargements cumulés. Une partie significative de ces images circulent sur DeviantArt, ArtStation et les portfolios personnels des graphistes.

Une négociation devenue politique

La lecture initiale présentait le data poisoning comme un outil défensif individuel. La réalité de 2026 est plus stratégique : plusieurs collectifs d'artistes, de journalistes et même de studios de production utilisent ces techniques comme levier dans des négociations de licences. Le principe est simple : un éditeur de modèle qui se retrouve avec un dataset contaminé doit soit retirer les contenus litigieux (coûteux à identifier), soit signer un accord avec les ayants droit pour obtenir des versions « clean ». Cette mécanique a pesé dans plusieurs deals récents. The New York Times, Associated Press et Le Monde ont signé en 2025 des accords pluriannuels avec OpenAI et Anthropic, rémunérés à hauteur de plusieurs dizaines de millions de dollars chacun. Reuters a révélé que les grandes plateformes de stock image (Getty, Shutterstock, Adobe Stock) ont renforcé leurs systèmes de signature cryptographique — C2PA, IPTC — pour garantir aux éditeurs de modèles que les contenus qu'ils achètent sont bien exempts de poison. Inversement, les contenus publics non signés sont de plus en plus suspects.

Ce que dit le droit européen

La position européenne est plus nuancée qu'aux États-Unis. L'AI Act, entré en vigueur progressivement depuis août 2024, impose aux fournisseurs de modèles à usage général (GPAI) de documenter les données d'entraînement et de respecter le droit d'opt-out prévu par la directive DAMUN sur le droit d'auteur. Concrètement : un éditeur qui publie un robots.txt explicite ou utilise le standard TDM Reservation Protocol peut s'opposer à l'entraînement. L'article 53 du règlement impose au fournisseur de prouver qu'il a respecté ces refus. Dans ce cadre, le recours au data poisoning par un éditeur français ou européen est juridiquement ambigu mais pas illégal. La CNIL, interrogée par Les Échos en janvier 2026, considère qu'une protection technique appliquée à un contenu dont l'auteur a explicitement refusé l'entraînement ne constitue pas une attaque au sens du RGPD ou de la directive NIS 2. Inversement, utiliser le poison pour saboter un modèle open source communautaire pourrait tomber sous le coup de l'article 323-3 du Code pénal, qui réprime l'entrave au fonctionnement d'un système de traitement automatisé de données.

Implications pour les entreprises françaises

Pour une entreprise qui déploie des modèles génératifs, trois risques émergent. Premier risque : entraîner un modèle interne sur des données web non filtrées expose à intégrer du poison dans les poids du modèle. Les équipes MLOps des scale-ups françaises comme Mistral, Dust ou PhotoRoom investissent désormais dans des pipelines de détection systématique. Le coût marginal de cette étape reste élevé : environ 0,002 à 0,008 € par image analysée selon les outils (CleanLabs, Lakera Guard, SecureML). Deuxième risque : utiliser un modèle open source communautaire dont le dataset aurait été pollué. La Fondation Hugging Face a lancé en février 2026 un label Dataset Integrity qui certifie que le dataset a été audité contre Glaze, Nightshade et les variantes connues. Pour les PME picardes qui utilisent des modèles open source (Llama, Mistral, DeepSeek), le pragmatisme conseille de privilégier les versions certifiées et de ne pas construire d'application critique sur des poids dont la provenance n'est pas traçable. Troisième risque, plus subtil : la pollution des données synthétiques. De plus en plus d'entreprises génèrent des datasets d'entraînement à partir de modèles existants (distillation). Si le modèle source est contaminé, le modèle fille l'est aussi. Les équipes IA du groupe Decathlon, installées à Villeneuve-d'Ascq, ont documenté en mars 2026 un cas concret où un modèle de détection produits avait appris des associations erronées après avoir été entraîné sur des visuels générés à partir de Stable Diffusion contaminé.

Le scénario de l'escalade

Le data poisoning n'est que la première couche d'une bataille qui s'étend. Les éditeurs de modèles développent des contre-mesures (filtres de détection, robustesse adversariale), les artistes répliquent avec des poisons plus sophistiqués, et de nouvelles techniques émergent : le « watermarking » des sorties IA, les prompts adversariaux, le cloaking de textes pour les modèles de langage. Des chercheurs de l'INRIA Nord-Europe, basé à Lille, travaillent actuellement sur une variante textuelle baptisée BlurText qui perturbe les représentations de modèles de langage. Le point d'équilibre ne sera probablement pas technique. Il viendra d'un cadre contractuel généralisé : contrats de licence collectifs négociés par les sociétés d'ayants droit (SCAM, SACD, ADAGP pour les visuels), marketplaces de datasets certifiés, et potentiellement — c'est la position défendue par le Conseil national du numérique dans un rapport de mars 2026 — une taxe IA reversée aux créateurs. En attendant, la guérilla du poison continue, et elle fonctionne.

Regards croisés depuis la Picardie

Sur le terrain régional, le sujet est encore mal identifié par les directions d'entreprises de taille intermédiaire. Lors d'un atelier organisé par la CCI Hauts-de-France à Amiens en mars 2026, une enquête flash auprès de 47 dirigeants a montré que seuls 9 % avaient entendu parler du data poisoning. Le chiffre monte à 34 % dans les scale-ups de la French Tech Lille, mais reste anecdotique dans l'industrie et le commerce. Cette asymétrie crée une zone de risque réelle : les entreprises qui expérimentent des projets d'IA interne le font rarement avec des pipelines de curation suffisants. Les écoles d'ingénieurs régionales commencent à intégrer le sujet. L'IMT Nord-Europe (campus Lille/Douai) a ajouté en 2025 un module « Robustesse adversariale des modèles IA » dans son cursus data science. L'UTC Compiègne propose depuis janvier 2026 un MOOC ouvert aux professionnels sur les vulnérabilités des modèles génératifs, suivi par environ 800 inscrits au premier trimestre. La montée en compétence est réelle mais se heurte à un plafond : tant que les dirigeants de PME ne perçoivent pas le risque comme prioritaire, les investissements de protection resteront marginaux.

Questions fréquentes

Qu'est-ce qui distingue Glaze et Nightshade ?

Glaze est défensif : il modifie une image pour la rendre inutile à l'entraînement, sans nuire au modèle. Nightshade est offensif : il injecte des associations sémantiques trompeuses qui dégradent activement le modèle s'il l'apprend. Glaze protège une œuvre, Nightshade contamine le dataset.

Une entreprise française peut-elle légalement utiliser le data poisoning ?

Oui, tant qu'elle l'applique à ses propres contenus pour empêcher leur exploitation non autorisée. Cela reste dans le cadre de la directive DAMUN et du droit d'opt-out prévu par l'AI Act. L'usage devient litigieux si le poison est injecté dans un dataset appartenant à un tiers.

Comment détecter si mon modèle a été entraîné sur des données empoisonnées ?

Des outils existent : CleanLabs pour la détection statistique, l'analyse de gradient shift, le test par prompts déclencheurs connus. En pratique, un modèle qui génère des sorties bizarres sur des catégories fréquentes (mains, visages, animaux courants) est un signal d'alerte.

Le RGPD s'applique-t-il au data poisoning ?

Indirectement. Le RGPD protège les données personnelles, pas les œuvres de création. Mais si une image empoisonnée contient un portrait identifiable, la personne peut invoquer le droit d'opposition à l'entraînement. La CNIL a ouvert en 2025 une consultation publique sur le sujet.

Les PME doivent-elles s'inquiéter de ce phénomène ?

Uniquement si elles entraînent leurs propres modèles. Pour les PME qui utilisent des API (OpenAI, Mistral, Anthropic), le risque est porté par le fournisseur. Le bon réflexe reste de lire les clauses de garantie et de privilégier les fournisseurs qui communiquent sur leur pipeline de data curation.