AI tarpits, Nepenthes, Anubis : la guérilla discrète contre les scrapers d'IA et ce que les éditeurs des Hauts-de-France peuvent en faire

Depuis dix-huit mois, les éditeurs de sites picards — presse régionale, blogs métiers, archives associatives, sites institutionnels d'agglomération — constatent la même anomalie dans leurs logs : des pics de trafic qui ne correspondent à aucun visiteur humain, suivis de plaintes côté hébergement. Le coupable est désormais identifié. Les robots d'entraînement d'OpenAI, Anthropic, Perplexity, ByteDance ou Common Crawl absorbent des téraoctets de contenus à un rythme jamais vu, en ignorant volontiers le fichier robots.txt qui devait servir de protocole de courtoisie. Face à ce siège permanent, une réponse technique discrète s'est organisée : les AI tarpits, ces pièges à scrapers nommés Nepenthes, Iocaine ou Anubis. Fast Company en a tiré un état des lieux dans son édition du 16 mai 2026. Pour les éditeurs des Hauts-de-France, c'est l'occasion de comprendre ce qui se joue et de décider d'une posture.

Pourquoi robots.txt ne suffit plus en 2026

Le fichier robots.txt, défini en 1994, repose sur un contrat moral : un robot bien élevé déclare son User-Agent et respecte les directives Disallow du site. Pendant trente ans, Googlebot, Bingbot et les autres ont joué le jeu. Le rapport HUMAN Security publié en avril 2026 et l'analyse Cloudflare publiée le 5 février 2025 racontent une autre histoire pour 2024-2026. Plus de 70 % du trafic web mondial est désormais automatisé, dont une part croissante provient de bots d'entraînement IA. Certains, comme GPTBot d'OpenAI ou ClaudeBot d'Anthropic, respectent encore robots.txt. D'autres — crawlers anonymes, sous-traitants de second rang, intermédiaires de Common Crawl — falsifient leur User-Agent ou ignorent purement et simplement les directives. Côté éditeur picard, la conséquence est double. D'abord une facture d'hébergement qui gonfle sans corrélation avec l'audience humaine, parfois multipliée par trois sur une bascule de 100 000 à 300 000 requêtes mensuelles. Ensuite, la perte de contrôle sur l'usage des contenus : un article de presse locale, un manuel technique métier, des archives municipales se retrouvent absorbés dans des modèles dont l'éditeur ne reverra ni un centime ni une attribution claire.

Nepenthes : le piège infini qui retient les robots pendant des semaines

Publié en janvier 2025 par un développeur indépendant signant « Aaron » sur le site zadzmo.org, Nepenthes — du nom de la plante carnivore — est un serveur HTTP qui génère à la volée des pages remplies de liens internes pointant vers d'autres pages également générées à la volée. Un robot qui suit aveuglément les liens entre dans un labyrinthe sans sortie, exactement comme une mouche dans le pichet d'une népenthes. L'auteur dit avoir piégé certains crawlers pendant plusieurs semaines, leur servant en parallèle du contenu Markovien — texte généré par chaîne de Markov, syntaxiquement correct mais sémantiquement vide. La couverture qu'en a fait 404 Media a fait le tour du milieu en quarante-huit heures. Le projet est sous licence permissive et le code tient en quelques centaines de lignes. Le hosteur Lowend Box rapporte que sur certains domaines déployant Nepenthes, le trafic bot a chuté de 94 % en moins de deux semaines, les robots ayant abandonné le domaine après s'y être épuisés. Anubis, projet voisin développé par Xe Iaso, vise lui une autre logique : il impose au visiteur un proof-of-work — une petite preuve de calcul cryptographique — avant de lui ouvrir le site, sur le modèle inversé du CAPTCHA. Pour un humain le délai est imperceptible, pour un scraper qui tente de paralléliser des millions de requêtes le coût en CPU devient prohibitif.

Iocaine, Quixotic, Poison the WeLLMs : la palette s'élargit

À côté du piégeage à la Nepenthes, une autre famille d'outils ne cherche pas à retenir le robot mais à l'empoisonner. Iocaine — clin d'œil au poison de Princess Bride — laisse passer le scraper et lui sert du texte plausible mais corrompu, conçu pour dégrader la qualité du modèle qui s'entraînera dessus. Quixotic suit la même logique. Poison the WeLLMs joue en proxy inverse et détecte les User-Agents IA connus pour leur servir une réponse pourrie. Sur l'agrégat Hacker News du 22 janvier 2025, le débat éthique a explosé : empoisonner un robot qui pille sans permission est-il une forme d'auto-défense numérique légitime ou un sabotage caractérisé ? Pour un éditeur picard prudent, l'avertissement de l'auteur de Nepenthes est à prendre au sérieux : « ceci est un logiciel délibérément malveillant ». Déployer un tarpit sans avoir mesuré l'impact sur le SEO légitime, sur Googlebot et Bingbot, sur les robots de moteurs de recherche encore utiles peut casser la visibilité d'un site. La règle de prudence est simple : un tarpit se déploie sous condition de User-Agent strictement identifié, dans un sous-chemin annoncé, après mesure des conséquences.

Le tutoriel ci-dessus, publié en octobre 2025, détaille la mise en place opérationnelle d'un blocage AI Crawlers en moins d'une heure sur la plupart des hébergements mutualisés et VPS courants.

Que faire concrètement pour un site édité depuis Lille, Amiens ou Compiègne

Trois niveaux de réponse s'offrent aux éditeurs régionaux. Le premier niveau, accessible à tous, consiste à mettre à jour son robots.txt avec la liste des User-Agents IA connus à bloquer — GPTBot, ClaudeBot, PerplexityBot, CCBot, Google-Extended, Bytespider, Amazonbot, Applebot-Extended — et à activer l'option AI Audit côté Cloudflare ou Fastly pour qui en dispose. Le second niveau ajoute un fichier ai.txt ou llms.txt à la racine du site, standard émergent qui distingue l'accès en lecture de l'autorisation d'entraînement. Le troisième niveau, plus offensif, consiste à déployer Nepenthes ou Anubis sur des zones du site jugées trop pillées et à surveiller les logs sur trente jours pour mesurer l'impact. Pour les éditeurs membres du Syndicat de la presse quotidienne régionale comme La Voix du Nord, Le Courrier picard ou L'Union, l'enjeu dépasse la technique. Plusieurs accords commerciaux avec OpenAI et Google se négocient en 2026 sur des bases européennes. Pendant ces négociations, freiner techniquement le scraping non rémunéré renforce la position. Pour les blogs métiers et les associations qui n'auront jamais accès à ces tables de négociation, l'auto-défense technique reste le seul levier.

FAQ

Un tarpit risque-t-il de pénaliser mon référencement Google ?

Seulement si le tarpit est mal configuré et piège aussi Googlebot. La pratique recommandée est de filtrer strictement par User-Agent et adresse IP : on autorise Googlebot, Bingbot, DuckDuckBot et quelques autres, on dirige le reste vers le tarpit. Le test se fait via les outils Search Console de Google et Bing avant déploiement large.

Est-ce légal en France de servir du contenu empoisonné à un robot ?

La question n'a pas été tranchée par un tribunal français en 2026. Le RGPD ne s'applique pas aux contenus non personnels et la directive DSM 2019/790 protège les bases de données mais pas une page éditoriale individuelle. Un avis juridique préalable est conseillé si le site est destiné à un public mineur ou si la dégradation pourrait nuire à un service public.

Quelle différence entre tarpit et pare-feu applicatif ?

Un pare-feu applicatif type Cloudflare WAF, Imperva ou ModSecurity bloque le robot avec un code 403. Un tarpit accepte la connexion et la prolonge artificiellement pour consommer les ressources du robot. Les deux approches sont complémentaires : le pare-feu filtre l'évident, le tarpit retient ce qui passe.

Faut-il payer une solution commerciale ou rester sur de l'open source ?

Pour un site régional de taille moyenne, l'open source — Nepenthes, Anubis, fail2ban — couvre l'essentiel à coût nul hors temps administrateur. Les solutions commerciales (Cloudflare Bot Management, HUMAN, DataDome) sont pertinentes au-delà du million de visiteurs uniques par mois ou quand la surface d'attaque est large.

Comment savoir si mon site est ciblé par des scrapers IA ?

Analysez les logs d'accès sur sept jours. Recherchez les User-Agents contenant GPTBot, ClaudeBot, PerplexityBot, CCBot, ChatGPT-User, Bytespider. Observez aussi les pics de requêtes en provenance d'AWS, GCP, Azure, Hetzner, OVHcloud qui ne correspondent pas à votre audience humaine habituelle. Outils utiles : GoAccess, Matomo logs, ou la console Cloudflare.