L'entraînement des modèles d'IA repose sur l'ingestion massive de contenus protégés. Une exception légale encadre cette pratique en Europe : le text and data mining. Conçue entre 2016 et 2019, elle n'a pas anticipé GPT-4. Résultat : un mécanisme d'opt-out mal défini, des tribunaux qui divergent, et un bras de fer créateurs-contre-machines qui ne fait que commencer.
La fouille de données en trois mots : collecter, copier, analyser
La fouille de textes et de données (TDM) désigne, selon la directive DSM (article 2(2)), toute technique d’analyse automatisée visant à dégager des informations — constantes, tendances, corrélations — de contenus numériques. En droit français, l’article L. 122-5-3 du Code de la propriété intellectuelle reprend cette définition mot pour mot depuis l’ordonnance du 24 novembre 2021.
Concrètement, le TDM couvre toute opération de collecte, copie et analyse automatisée de contenus numériques — y compris le scraping de sites web pour constituer des jeux de données d’entraînement de modèles de langage.
Mais c’est l’IA générative qui a rendu le sujet explosif. Quand un modèle ingère des millions de livres pour apprendre à écrire, la « fouille » ressemble furieusement à une copie industrielle.
Deux exceptions, deux mondes
La directive DSM a instauré deux régimes distincts, transposés dans tous les États membres. Leur logique est radicalement différente — et c’est là que tout se joue.
C’est l’article 4 qui concentre tous les débats. Il autorise le TDM commercial — donc potentiellement l’entraînement de modèles d’IA — sous réserve que les titulaires de droits n’aient pas exprimé leur opposition par des « procédés lisibles par machine ». Le considérant 18 de la directive cite explicitement les métadonnées et les conditions générales d’utilisation.
Attention : l’article 3 est blindé contre les contrats. Un éditeur ne peut pas interdire la fouille scientifique dans ses CGU. L’article 4, en revanche, n’a pas cette protection. Un titulaire peut interdire le TDM commercial via ses conditions d’utilisation, et cette interdiction sera juridiquement opposable.
Ce que dit le Code de la propriété intellectuelle
La France a transposé la directive DSM par deux ordonnances (mai et novembre 2021) et un décret du 23 juin 2022 qui précise les modalités de conservation et de destruction des copies.
L’article L. 122-5-3 du CPI distingue clairement les deux régimes. Le paragraphe II couvre la recherche : les organismes de recherche et institutions du patrimoine culturel peuvent réaliser des fouilles à des fins scientifiques, y compris dans le cadre de partenariats sans but lucratif avec des acteurs privés. Le paragraphe III couvre tout le reste : toute personne peut fouiller, mais le titulaire peut s’y opposer — sans avoir à motiver son refus.
Le décret impose que les copies réalisées pour le TDM soient stockées de manière sécurisée et détruites à l'issue de la fouille. Un modèle d'IA qui « mémorise » les oeuvres dans ses paramètres dépasse-t-il ce cadre ? C'est précisément ce qu'a jugé le tribunal de Munich en novembre 2025.
L’AI Act tranche le débat : oui, le TDM couvre l’entraînement
Un argument récurrent des titulaires de droits consiste à soutenir que l’exception TDM n’a jamais été conçue pour l’IA générative. Cette position est devenue difficile à tenir depuis l’adoption du règlement sur l’IA (AI Act), entré en vigueur le 1er août 2024.
L’article 53(1)(c) du règlement impose aux fournisseurs de modèles GPAI de mettre en place une politique de conformité au droit d’auteur, et en particulier de respecter les réserves de droits exprimées conformément à l’article 4(3) de la directive DSM. Le considérant 105 est encore plus explicite : il reconnaît que les techniques de TDM peuvent être utilisées de manière extensive pour la recherche et l’analyse de contenus protégés.
Le législateur européen a délibérément lié TDM et entraînement IA. Les tribunaux allemands de Hambourg (affaire LAION, 2024) et de Munich (affaire GEMA, 2025) l’ont tous deux confirmé.
En pratique, pour les entreprises qui développent des modèles GPAI : le cadre est clair depuis le 2 août 2025. Le TDM s’applique à l’entraînement, mais l’obligation de respecter les opt-out est juridiquement contraignante.
L’opt-out : un droit facile à proclamer, impossible à exercer
L’arsenal technique disponible
La directive exige que l’opt-out soit exprimé par des « procédés lisibles par machine ». En pratique, une mosaïque de solutions coexiste sans qu’aucune ne s’impose comme standard universel.
Le Code de bonnes pratiques GPAI, publié le 10 juillet 2025 par l’AI Office, impose aux signataires de respecter le protocole robots.txt et d’identifier d’autres protocoles appropriés. La Commission européenne a lancé en décembre 2025 une consultation pour établir une liste agréée.
Pourquoi le système ne fonctionne pas
Le problème est triple. Premièrement, le robots.txt n’a jamais été conçu pour exprimer des droits d’auteur — c’est un protocole de courtoisie inventé en 1994 pour les moteurs de recherche. Deuxièmement, il n’existe pas de standard unique reconnu par tous les acteurs de l’IA, ce qui oblige les titulaires à multiplier les dispositifs sans garantie d’efficacité. Troisièmement, les opt-out ne sont pas rétroactifs : ils ne protègent pas contre les fouilles déjà réalisées.
Le SNE recommande de combiner clause contractuelle et protocole technique pour une opposabilité maximale. C’est le minimum — et même ce minimum n’est pas garanti.
Les batailles judiciaires qui dessinent le droit
Un photographe conteste la reproduction d'une photo dans un dataset d'images. Le tribunal interprète largement la notion de recherche scientifique : constituer un jeu de données ouvert et gratuit contribue à la recherche, même sans « gain de connaissance » direct. En obiter dictum, le tribunal estime que l'article 4 s'appliquerait aussi au TDM commercial pour l'IA.
La GEMA attaque OpenAI pour la reproduction de paroles de 9 chansons par ChatGPT. Décision la plus sévère à ce jour — trois points décisifs :
Le High Court anglais rejette les principales demandes — l'entraînement de Stable Diffusion a eu lieu hors du Royaume-Uni, privant le tribunal de compétence territoriale. Un rappel que le droit d'auteur reste fondamentalement territorial.
La France entre en scène : l’affaire Meta
En mars 2025, la SGDL, le SNAC et le SNE ont assigné Meta devant le Tribunal judiciaire de Paris. Le reproche : l’utilisation de la base Books3 — environ 200 000 livres intégraux, dont des oeuvres d’auteurs français — pour entraîner le modèle Llama, sans autorisation des ayants droit.
L’action repose sur deux piliers : la contrefaçon (articles L. 122-4 et suivants du CPI) et le parasitisme économique (article 1240 du Code civil). L’affaire est pendante devant la 3e chambre du tribunal, spécialisée en propriété intellectuelle.
L'exception TDM suppose un accès licite aux oeuvres. Or, la base Books3 est largement constituée de livres téléchargés depuis des sources non autorisées. Si le tribunal retient l'absence d'accès licite, l'exception TDM ne pourra même pas être invoquée par Meta.
Le débat sur l'opt-out deviendrait alors sans objet — on ne discute pas d'une exception quand la condition préalable n'est pas remplie.
Cette procédure est un test majeur pour l’interprétation de l’exception TDM en droit français dans le contexte de l’IA générative. Trois questions devront être tranchées : l’exception de l’article 4 couvrait-elle l’entraînement de Llama ? Les auteurs avaient-ils exercé un opt-out valide ? Et surtout, le mécanisme d’opt-out est-il même pertinent quand la source est pirate ?
Le Code de bonnes pratiques GPAI : un filet troué
Le Code de bonnes pratiques pour les modèles GPAI, publié le 10 juillet 2025, est l’outil principal de conformité prévu par l’AI Act. Son chapitre « Copyright » impose aux signataires quatre obligations : mettre en place une politique de conformité au droit d’auteur, respecter le robots.txt et les autres protocoles reconnus, ne pas crawler les sites identifiés comme massivement contrefaisants, et publier un résumé des données d’entraînement selon le template officiel.
Le piège est subtil. L’adhésion au Code crée une présomption de conformité à l’AI Act — mais pas au droit d’auteur lui-même. Le Code le reconnaît explicitement. Respecter le Code ne protège donc pas contre une action en contrefaçon devant un tribunal national. C’est une conformité réglementaire, pas un bouclier juridique.
Opt-out contre opt-in : le vrai débat politique
Le mécanisme actuel repose sur un système d’opt-out : par défaut, le TDM est autorisé, sauf opposition du titulaire. Plusieurs voix — dont des syndicats d’auteurs français — militent pour un passage à l’opt-in, où l’autorisation préalable du titulaire serait requise avant toute fouille.
La table ronde à l’Assemblée nationale du 19 mars 2025 a mis en lumière l’ampleur du problème : la SACEM estime que les créateurs de musique et d’audiovisuel pourraient perdre 22 milliards d’euros en cinq ans si aucun mécanisme de rémunération n’est mis en place. Plusieurs États membres ont exprimé au Conseil de l’UE l’idée que l’entraînement de l’IA « dépasse le champ de l’exception TDM », mais une majorité préfère attendre avant de légiférer à nouveau.
Se protéger : le guide opérationnel
Côté titulaires de droits
Déployez le protocole TDMRep : ajoutez un fichier tdmrep.json à la racine de votre site en suivant la spécification du W3C. C’est la solution technique la plus robuste, conçue spécifiquement pour le TDM.
Configurez votre robots.txt : bloquez explicitement les crawlers d’IA connus — GPTBot, CCBot, Google-Extended, anthropic-ai, et les autres.
Ajoutez une clause d’opt-out dans vos CGU : le SNE propose un modèle type adaptable. Mentionnez explicitement l’article L. 122-5-3 du CPI et l’article 4(3) de la directive DSM.
Intégrez des métadonnées dans vos fichiers : IPTC pour les images, XMP pour les PDF.
Conservez des preuves horodatées : captures d’écran de vos CGU, logs de configuration, archives web. En cas de litige, le juge voudra voir la date à laquelle l’opt-out a été exprimé.
Côté développeurs d’IA
Mettez en place une politique copyright conforme à l’article 53(1)(c) du règlement IA, avec un responsable désigné au sein de l’entreprise.
Respectez strictement le robots.txt et identifiez les autres protocoles d’opt-out (TDMRep, en-têtes HTTP, métadonnées embarquées).
Vérifiez la licéité des sources : n’entraînez pas vos modèles sur des données provenant de sites pirates. L’exception TDM exige un accès licite — sans quoi elle ne peut même pas être invoquée.
Publiez votre résumé de données d’entraînement selon le template officiel de l’AI Office.
Anticipez les risques de mémorisation : la décision GEMA montre que la reproduction d’oeuvres dans les outputs engage la responsabilité du fournisseur, pas de l’utilisateur.
Ce qui reste à trancher
Munich dit oui — les paramètres d'un modèle qui permettent de recréer une oeuvre constituent une reproduction. L'interprétation est contestée. La CJUE devra probablement trancher. Un renvoi préjudiciel hongrois est en cours.
Selon Munich, l'exception ne couvre que la constitution du dataset, pas la mémorisation permanente dans le modèle. Distinction novatrice, pas encore validée par une juridiction supérieure.
Robots.txt, TDMRep, CGU — les tribunaux divergent. La consultation de la Commission européenne (déc. 2025) vise un consensus, encore loin d'être atteint.
Les opt-out d'aujourd'hui ne protègent pas les oeuvres déjà ingérées. Problème structurel sans solution juridique claire — les modèles existants ont déjà « appris ».
Le calendrier à surveiller
En résumé
L’exception TDM (articles 3 et 4 de la directive DSM) couvre bien l’entraînement de modèles d’IA — le règlement IA le confirme explicitement. Les titulaires de droits peuvent s’opposer au TDM commercial via un opt-out lisible par machine, mais l’exercice reste un parcours d’obstacles technique et juridique.
La décision GEMA v. OpenAI (Munich, novembre 2025) a posé un jalon majeur : la mémorisation d’oeuvres dans un LLM constitue une contrefaçon, et le fournisseur du modèle — pas l’utilisateur — en est responsable. En France, l’action contre Meta sera le premier test de l’exception TDM en droit français dans le contexte de l’IA générative.
Le Code de bonnes pratiques GPAI crée une présomption de conformité à l’AI Act, mais pas un bouclier contre la contrefaçon. Pour une protection efficace, il faut combiner clause contractuelle d’opt-out et protocole technique — TDMRep plus robots.txt au minimum.
Le bras de fer entre créateurs et machines ne fait que commencer. Les prochaines audiences — et surtout le premier renvoi préjudiciel devant la CJUE — dessineront le droit d’auteur du XXIe siècle.