Désactiver l'entraînement IA sur vos données : ce que ChatGPT, Claude, Gemini, Perplexity permettent vraiment en 2026 (et où le RGPD reste en avance)

Cadenas et donnees - confidentialite IA generative — Photo : Unsplash

Lorsqu'un salarié colle une note interne dans ChatGPT pour la résumer, demande à Claude de relire un contrat ou interroge Gemini sur la stratégie commerciale du trimestre, ces données ne disparaissent pas après la conversation. Selon les paramètres par défaut de chaque service et selon le pays, elles peuvent être stockées, lues par des opérateurs humains pour des contrôles qualité, ou utilisées pour réentraîner les modèles. Un article de Fast Company publié le 2 mai 2026 a remis ce sujet sur la table en proposant un guide pratique pour limiter cette exposition. Côté français et européen, les obligations sont plus strictes que ce que les paramètres par défaut laissent croire, et les directions juridiques commencent à s'en saisir avec sérieux. Cette analyse compare ce que permettent réellement les principaux assistants IA grand public en mai 2026, lit ces options à l'aune du RGPD et de l'AI Act, puis propose un cadre opérationnel pour les PME et ETI des Hauts-de-France qui généralisent l'usage de ces outils sans cadre clair.

L'état des lieux : par défaut, presque tout est utilisé pour entraîner

Les conditions générales d'utilisation de la majorité des assistants IA grand public prévoient, sauf opt-out explicite, un usage des conversations pour améliorer les modèles. Concrètement, cela peut signifier : indexation pour fine-tuning, lecture par des annotateurs pour évaluation de la qualité, conservation pour résoudre des incidents. Les versions entreprise et API ont en général un régime différent et meilleur, mais beaucoup de salariés utilisent encore les comptes grand public, soit par habitude, soit faute de licence pro. OpenAI propose dans ChatGPT un paramètre « Améliorer le modèle pour tous » désactivable depuis les Réglages, onglet Données. Quand il est désactivé, les conversations ne sont plus utilisées pour l'entraînement, mais elles restent stockées trente jours pour des raisons de sécurité. Sur ChatGPT Team, ChatGPT Enterprise et l'API, les conversations ne sont jamais utilisées pour l'entraînement, sauf opt-in explicite. Anthropic a longtemps eu une posture stricte chez Claude : les conversations grand public n'étaient pas utilisées pour l'entraînement par défaut. Ce paramètre a évolué début 2026 avec la mise en place d'un opt-in par défaut activé pour certains usages, désactivable depuis les paramètres « Confidentialité et données ». Sur Claude for Work et l'API, le contenu reste exclu de l'entraînement par défaut. Google Gemini intègre les conversations grand public dans l'amélioration du service via l'« Activité Gemini Apps », activée par défaut. Le paramètre se désactive depuis myactivity.google.com, mais Google précise que des extraits revus par des évaluateurs humains peuvent être conservés trois ans même après désactivation. Sur Gemini for Workspace et Vertex AI, les données client ne sont pas utilisées pour entraîner les modèles fondamentaux. Microsoft Copilot, dans sa version intégrée à Microsoft 365, garantit contractuellement que les données des locataires ne sont pas utilisées pour entraîner les modèles fondamentaux d'OpenAI ou de Microsoft. La version grand public, Copilot Pro, suit en revanche les paramètres OpenAI sous-jacents, ce qui crée une asymétrie peu connue des utilisateurs. Perplexity, dont l'usage explose dans les fonctions marketing et veille, conserve par défaut l'historique pour personnaliser les réponses. Un paramètre « AI Data Retention » permet de désactiver la conservation, et Perplexity Enterprise Pro ajoute des engagements contractuels conformes au RGPD.

Pourquoi le RGPD reste un cran au-dessus

Le RGPD impose, indépendamment de tout opt-out, un cadre que les paramètres des chatbots ne suffisent pas à satisfaire. Toute donnée à caractère personnel traitée par un assistant IA doit reposer sur une base légale identifiée. Pour un salarié qui copie une fiche client ou un dossier RH, la base légale n'est presque jamais l'intérêt légitime du fournisseur de modèle, mais celle de l'employeur, à condition d'avoir réalisé une analyse d'impact (AIPD) et d'avoir informé les personnes concernées. La CNIL a publié en 2024 puis mis à jour en 2025 un dossier complet sur l'usage de l'IA générative qui rappelle plusieurs exigences souvent ignorées : minimisation (ne pas envoyer plus de données que nécessaire), durée de conservation (paramétrer une suppression automatique), traçabilité (savoir quel salarié a interrogé quoi), et droit d'opposition effectif. Plusieurs contrôles ont été menés en 2025 sur des PME utilisatrices, et la CNIL a publié des sanctions pédagogiques mettant en cause non pas l'usage de l'IA en soi mais l'absence de cadre. L'AI Act européen, dont les obligations principales sont entrées en vigueur en février 2026, vient ajouter une couche : les fournisseurs de modèles à usage général doivent documenter leurs sources d'entraînement et offrir aux ayants droit des moyens d'opposition. Cela ne règle pas le problème individuel d'un utilisateur, mais cela structure la chaîne de responsabilité.

Vidéo : les recommandations CNIL/AI Act sur les IA génératives

Cette vidéo explicative présente les principales recommandations en matière de RGPD appliquées à l'IA générative, et clarifie les points qui posent souvent question dans les services juridiques d'entreprise.

Cinq actions à mener cette semaine dans une PME

Le premier chantier est la cartographie : qui utilise quels assistants, depuis quels comptes, avec quels types de données. Une simple enquête déclarative auprès des managers donne un premier état des lieux qui surprend souvent les directions. Le deuxième chantier est la migration des comptes grand public vers des licences entreprise. Le surcoût mensuel par utilisateur reste modeste comparé au risque juridique d'une fuite massive de données clients. Le troisième chantier est la rédaction d'une charte d'usage simple (deux à quatre pages) précisant ce qui peut être collé dans un assistant et ce qui ne le peut pas, avec des exemples concrets : oui pour la reformulation d'un brouillon de mail commercial, non pour l'envoi d'un fichier RH ou d'un contrat client. Cette charte doit être validée par le CSE quand il existe et inscrite dans le règlement intérieur ou ses annexes. Le quatrième chantier est technique : configurer les paramètres d'opt-out sur les comptes existants, désactiver l'historique quand cela ne nuit pas à l'usage, et documenter ces choix. Plusieurs solutions de proxy ou de DLP, comme celles proposées par Sentra, Witness ou Lasso, permettent de filtrer en sortie les données sensibles avant qu'elles ne quittent le système d'information. Le cinquième chantier est l'AIPD (analyse d'impact relative à la protection des données), obligatoire dès qu'un usage présente un risque élevé pour les personnes. Pour les PME des Hauts-de-France, la CCI Hauts-de-France et BPI France proposent depuis 2025 des accompagnements à coût réduit pour structurer cette démarche.

Les points souvent oubliés

Trois angles morts reviennent dans les audits. Le premier est l'extension navigateur : de nombreux assistants IA s'installent comme extension Chrome ou Edge, avec accès au contenu des onglets ouverts. Cela crée un canal de fuite que les paramètres du chatbot ne couvrent pas. Le deuxième est la voix : les assistants vocaux (ChatGPT Voice, Gemini Live) capturent et transmettent l'audio, parfois conservé pour amélioration. Le troisième est l'API : un développeur qui construit un agent interne avec une clé API personnelle peut court-circuiter sans le savoir le contrat entreprise.

FAQ

Désactiver l'entraînement suffit-il pour être conforme RGPD ?

Non. La désactivation de l'entraînement réduit un risque (la diffusion de vos données dans un futur modèle), mais ne traite pas la question de la base légale, de l'information des personnes, de la durée de conservation et de la sous-traitance. Une PME qui se contente de désactiver l'entraînement reste exposée.

Les versions entreprise sont-elles vraiment différentes ?

Oui, et de manière significative. ChatGPT Enterprise, Claude for Work, Gemini for Workspace et Copilot for Microsoft 365 incluent des engagements contractuels (DPA), un chiffrement renforcé, et l'exclusion par défaut de l'entraînement. Le coût par utilisateur est plus élevé, mais le ROI juridique est largement positif au-delà d'une dizaine d'utilisateurs réguliers.

Que faire si un salarié a déjà collé un fichier sensible dans ChatGPT ?

La conversation peut être supprimée depuis l'historique, et l'opérateur a l'obligation, sur demande, de purger les données associées (article 17 du RGPD). Selon la sensibilité, une notification au DPO et à la CNIL peut être nécessaire dans les 72 heures. Documenter l'incident, identifier le périmètre exposé, et dériver une action corrective dans la charte interne sont les étapes de base.

Comment expliquer ces enjeux à des dirigeants pressés ?

Trois phrases suffisent : « Par défaut, nos conversations IA peuvent servir à entraîner des modèles tiers. La conformité RGPD impose plus que désactiver une case. Migrer vers des comptes entreprise et écrire une charte courte coûte moins cher qu'une sanction. » La direction comprend en général très vite le rapport coût-risque.

Existe-t-il des alternatives 100 % françaises ou européennes ?

Oui. Mistral propose Le Chat et Le Chat Enterprise hébergés en Europe, avec engagement contractuel d'absence d'usage des données pour entraînement. LightOn, Doctrine AI et Dust offrent également des solutions françaises adaptées aux exigences sectorielles. Pour les administrations, Albert (DINUM) et le futur Pôle d'expertise IA d'État élargissent les options souveraines.

L'état des lieux : par défaut, presque tout est utilisé pour entraîner

Pourquoi le RGPD reste un cran au-dessus

Vidéo : les recommandations CNIL/AI Act sur les IA génératives

Cinq actions à mener cette semaine dans une PME

Les points souvent oubliés

FAQ

Désactiver l'entraînement suffit-il pour être conforme RGPD ?

Les versions entreprise sont-elles vraiment différentes ?

Que faire si un salarié a déjà collé un fichier sensible dans ChatGPT ?

Comment expliquer ces enjeux à des dirigeants pressés ?

Existe-t-il des alternatives 100 % françaises ou européennes ?

Sources et liens utiles

À lire aussi

SEO et GEO en 2026 : guide complet pour optimiser la visibilité d'une PME des Hauts-de-France à l'ère de l'IA générative

Internet mort : ce que la recherche Stanford 2026 révèle sur la part des contenus IA, et ce que cela change pour les médias et marketeurs des Hauts-de-France

Empreinte carbone de l'IA en entreprise : guide complet pour mesurer et réduire son impact en 2026