Text & Data Mining et droit d'auteur : l'exception TDM est-elle un permis de fouiller pour l'IA ?

Directive DSM 2019/790 · AI Act 2024 · Code civil

L'entraînement des modèles d'IA repose sur l'ingestion massive de contenus protégés. Une exception légale encadre cette pratique en Europe : le text and data mining. Conçue entre 2016 et 2019, elle n'a pas anticipé GPT-4. Résultat : un mécanisme d'opt-out mal défini, des tribunaux qui divergent, et un bras de fer créateurs-contre-machines qui ne fait que commencer.

La fouille de données en trois mots : collecter, copier, analyser

La fouille de textes et de données (TDM) désigne, selon la directive DSM (article 2(2)), toute technique d’analyse automatisée visant à dégager des informations — constantes, tendances, corrélations — de contenus numériques. En droit français, l’article L. 122-5-3 du Code de la propriété intellectuelle reprend cette définition mot pour mot depuis l’ordonnance du 24 novembre 2021.

Concrètement, le TDM couvre toute opération de collecte, copie et analyse automatisée de contenus numériques — y compris le scraping de sites web pour constituer des jeux de données d’entraînement de modèles de langage.

Ce que recouvre le TDM — bien au-delà de l'IA

🤖

Entraînement LLM

GPT, Llama, Mistral…

📚

Bibliométrie

Publications scientifiques

📰

Data journalism

Investigation par les données

⚖️

Brevets

Exploration propriété industrielle

Mais c’est l’IA générative qui a rendu le sujet explosif. Quand un modèle ingère des millions de livres pour apprendre à écrire, la « fouille » ressemble furieusement à une copie industrielle.

Deux exceptions, deux mondes

La directive DSM a instauré deux régimes distincts, transposés dans tous les États membres. Leur logique est radicalement différente — et c’est là que tout se joue.

Article 3 · Recherche

▶

Qui ? Organismes de recherche, institutions du patrimoine culturel

▶

Pourquoi ? Recherche scientifique uniquement

▶

Opt-out ? Impossible — exception impérative

▶

Contrats contraires ? Inopposables (art. 7 DSM)

🔒 Blindage total — aucun titulaire de droits ne peut bloquer la recherche scientifique

Article 4 · Général

▶

Qui ? Toute personne, y compris entreprises

▶

Pourquoi ? Toute finalité, y compris commerciale

▶

Opt-out ? Oui — opposition du titulaire possible

▶

Contrats contraires ? Opposables — CGU valides

⚠️ Brèche contrôlée — le TDM commercial passe, sauf opposition explicite

C’est l’article 4 qui concentre tous les débats. Il autorise le TDM commercial — donc potentiellement l’entraînement de modèles d’IA — sous réserve que les titulaires de droits n’aient pas exprimé leur opposition par des « procédés lisibles par machine ». Le considérant 18 de la directive cite explicitement les métadonnées et les conditions générales d’utilisation.

Attention : l’article 3 est blindé contre les contrats. Un éditeur ne peut pas interdire la fouille scientifique dans ses CGU. L’article 4, en revanche, n’a pas cette protection. Un titulaire peut interdire le TDM commercial via ses conditions d’utilisation, et cette interdiction sera juridiquement opposable.

Ce que dit le Code de la propriété intellectuelle

La France a transposé la directive DSM par deux ordonnances (mai et novembre 2021) et un décret du 23 juin 2022 qui précise les modalités de conservation et de destruction des copies.

L’article L. 122-5-3 du CPI distingue clairement les deux régimes. Le paragraphe II couvre la recherche : les organismes de recherche et institutions du patrimoine culturel peuvent réaliser des fouilles à des fins scientifiques, y compris dans le cadre de partenariats sans but lucratif avec des acteurs privés. Le paragraphe III couvre tout le reste : toute personne peut fouiller, mais le titulaire peut s’y opposer — sans avoir à motiver son refus.

⚠

Le piège de la conservation

Le décret impose que les copies réalisées pour le TDM soient stockées de manière sécurisée et détruites à l'issue de la fouille. Un modèle d'IA qui « mémorise » les oeuvres dans ses paramètres dépasse-t-il ce cadre ? C'est précisément ce qu'a jugé le tribunal de Munich en novembre 2025.

L’AI Act tranche le débat : oui, le TDM couvre l’entraînement

Un argument récurrent des titulaires de droits consiste à soutenir que l’exception TDM n’a jamais été conçue pour l’IA générative. Cette position est devenue difficile à tenir depuis l’adoption du règlement sur l’IA (AI Act), entré en vigueur le 1er août 2024.

L’article 53(1)(c) du règlement impose aux fournisseurs de modèles GPAI de mettre en place une politique de conformité au droit d’auteur, et en particulier de respecter les réserves de droits exprimées conformément à l’article 4(3) de la directive DSM. Le considérant 105 est encore plus explicite : il reconnaît que les techniques de TDM peuvent être utilisées de manière extensive pour la recherche et l’analyse de contenus protégés.

Le législateur européen a délibérément lié TDM et entraînement IA. Les tribunaux allemands de Hambourg (affaire LAION, 2024) et de Munich (affaire GEMA, 2025) l’ont tous deux confirmé.

Chaîne de confirmation législative et judiciaire

Directive DSM · 2019

Articles 3 et 4 : exception TDM pour la recherche et pour tous

AI Act · Août 2024

Article 53 : obligation de respecter les opt-out TDM pour les modèles GPAI

Tribunal de Hambourg · Sept. 2024

LAION : la constitution de datasets pour l'IA relève du TDM recherche

Tribunal de Munich · Nov. 2025

GEMA v. OpenAI : les LLM entrent dans le champ TDM, mais la mémorisation le dépasse

En pratique, pour les entreprises qui développent des modèles GPAI : le cadre est clair depuis le 2 août 2025. Le TDM s’applique à l’entraînement, mais l’obligation de respecter les opt-out est juridiquement contraignante.

L’opt-out : un droit facile à proclamer, impossible à exercer

L’arsenal technique disponible

La directive exige que l’opt-out soit exprimé par des « procédés lisibles par machine ». En pratique, une mosaïque de solutions coexiste sans qu’aucune ne s’impose comme standard universel.

Mécanismes d'opt-out — état des lieux

🤖

robots.txt Standard de référence GPAI

Fichier serveur indiquant aux robots les pages à ne pas explorer. Protocole de courtoisie, pas un mécanisme juridique à l'origine.

📄

TDMRep (W3C) Recommandé par le SNE

Protocole EDRLab/W3C avec fichier tdmrep.json — le plus robuste techniquement, conçu spécifiquement pour exprimer des droits.

🖼️

Métadonnées IPTC / XMP Standard industrie

Droits intégrés directement dans les fichiers (images, PDF). Invisible pour l'utilisateur, lisible par les machines.

🌐

En-têtes HTTP Complémentaire

Indication de la réserve de droits dans les en-têtes de réponse du serveur.

📜

CGU / Mentions légales Validé par Hambourg, contesté

Clause d'opposition dans les conditions d'utilisation. Seule, probablement insuffisante — à combiner avec un protocole technique.

Le Code de bonnes pratiques GPAI, publié le 10 juillet 2025 par l’AI Office, impose aux signataires de respecter le protocole robots.txt et d’identifier d’autres protocoles appropriés. La Commission européenne a lancé en décembre 2025 une consultation pour établir une liste agréée.

Pourquoi le système ne fonctionne pas

Le problème est triple. Premièrement, le robots.txt n’a jamais été conçu pour exprimer des droits d’auteur — c’est un protocole de courtoisie inventé en 1994 pour les moteurs de recherche. Deuxièmement, il n’existe pas de standard unique reconnu par tous les acteurs de l’IA, ce qui oblige les titulaires à multiplier les dispositifs sans garantie d’efficacité. Troisièmement, les opt-out ne sont pas rétroactifs : ils ne protègent pas contre les fouilles déjà réalisées.

Le SNE recommande de combiner clause contractuelle et protocole technique pour une opposabilité maximale. C’est le minimum — et même ce minimum n’est pas garanti.

Les batailles judiciaires qui dessinent le droit

Carte des contentieux TDM en Europe

Kneschke v. LAION Victoire LAION Hambourg · Sept. 2024

Un photographe conteste la reproduction d'une photo dans un dataset d'images. Le tribunal interprète largement la notion de recherche scientifique : constituer un jeu de données ouvert et gratuit contribue à la recherche, même sans « gain de connaissance » direct. En obiter dictum, le tribunal estime que l'article 4 s'appliquerait aussi au TDM commercial pour l'IA.

GEMA v. OpenAI Défaite OpenAI Munich · Nov. 2025

La GEMA attaque OpenAI pour la reproduction de paroles de 9 chansons par ChatGPT. Décision la plus sévère à ce jour — trois points décisifs :

Mémorisation = Contrefaçon

Les paramètres du modèle qui permettent de recréer une oeuvre constituent une reproduction.

TDM ≠ Mémorisation

L'exception ne couvre que la constitution du dataset, pas le stockage permanent dans le modèle.

C'est OpenAI qui paie

Le fournisseur du modèle est responsable des outputs contrefaisants, pas l'utilisateur.

Getty v. Stability AI Rejet partiel Londres · Nov. 2025

Le High Court anglais rejette les principales demandes — l'entraînement de Stable Diffusion a eu lieu hors du Royaume-Uni, privant le tribunal de compétence territoriale. Un rappel que le droit d'auteur reste fondamentalement territorial.

La France entre en scène : l’affaire Meta

En mars 2025, la SGDL, le SNAC et le SNE ont assigné Meta devant le Tribunal judiciaire de Paris. Le reproche : l’utilisation de la base Books3 — environ 200 000 livres intégraux, dont des oeuvres d’auteurs français — pour entraîner le modèle Llama, sans autorisation des ayants droit.

L’action repose sur deux piliers : la contrefaçon (articles L. 122-4 et suivants du CPI) et le parasitisme économique (article 1240 du Code civil). L’affaire est pendante devant la 3e chambre du tribunal, spécialisée en propriété intellectuelle.

💣

La question qui tue : l'accès licite

L'exception TDM suppose un accès licite aux oeuvres. Or, la base Books3 est largement constituée de livres téléchargés depuis des sources non autorisées. Si le tribunal retient l'absence d'accès licite, l'exception TDM ne pourra même pas être invoquée par Meta.

Le débat sur l'opt-out deviendrait alors sans objet — on ne discute pas d'une exception quand la condition préalable n'est pas remplie.

Cette procédure est un test majeur pour l’interprétation de l’exception TDM en droit français dans le contexte de l’IA générative. Trois questions devront être tranchées : l’exception de l’article 4 couvrait-elle l’entraînement de Llama ? Les auteurs avaient-ils exercé un opt-out valide ? Et surtout, le mécanisme d’opt-out est-il même pertinent quand la source est pirate ?

Le Code de bonnes pratiques GPAI : un filet troué

Le Code de bonnes pratiques pour les modèles GPAI, publié le 10 juillet 2025, est l’outil principal de conformité prévu par l’AI Act. Son chapitre « Copyright » impose aux signataires quatre obligations : mettre en place une politique de conformité au droit d’auteur, respecter le robots.txt et les autres protocoles reconnus, ne pas crawler les sites identifiés comme massivement contrefaisants, et publier un résumé des données d’entraînement selon le template officiel.

Le piège est subtil. L’adhésion au Code crée une présomption de conformité à l’AI Act — mais pas au droit d’auteur lui-même. Le Code le reconnaît explicitement. Respecter le Code ne protège donc pas contre une action en contrefaçon devant un tribunal national. C’est une conformité réglementaire, pas un bouclier juridique.

2 août 2025

Obligations en vigueur

Nouveaux modèles GPAI soumis à l'article 53

2 août 2026

Premières sanctions

L'AI Office peut engager des mesures d'exécution

2 août 2027

Conformité obligatoire

Modèles antérieurs au 2 août 2025 doivent se conformer

Opt-out contre opt-in : le vrai débat politique

Le mécanisme actuel repose sur un système d’opt-out : par défaut, le TDM est autorisé, sauf opposition du titulaire. Plusieurs voix — dont des syndicats d’auteurs français — militent pour un passage à l’opt-in, où l’autorisation préalable du titulaire serait requise avant toute fouille.

🔓

OPT-OUT

Droit actuel

• TDM autorisé par défaut

• Le titulaire doit agir pour bloquer

• Favorise l'innovation et la recherche

• Difficile à exercer effectivement

• Aucune rémunération prévue

Position : Commission européenne, France (officielle)

🔒

OPT-IN

Revendiqué par les créateurs

• TDM interdit par défaut

• Le développeur doit obtenir une licence

• Protège directement les créateurs

• Rémunération possible par licence

• Risque de freiner l'innovation

Position : SACEM, SGDL, sociétés de gestion collective

La table ronde à l’Assemblée nationale du 19 mars 2025 a mis en lumière l’ampleur du problème : la SACEM estime que les créateurs de musique et d’audiovisuel pourraient perdre 22 milliards d’euros en cinq ans si aucun mécanisme de rémunération n’est mis en place. Plusieurs États membres ont exprimé au Conseil de l’UE l’idée que l’entraînement de l’IA « dépasse le champ de l’exception TDM », mais une majorité préfère attendre avant de légiférer à nouveau.

Se protéger : le guide opérationnel

Côté titulaires de droits

Déployez le protocole TDMRep : ajoutez un fichier tdmrep.json à la racine de votre site en suivant la spécification du W3C. C’est la solution technique la plus robuste, conçue spécifiquement pour le TDM.

Configurez votre robots.txt : bloquez explicitement les crawlers d’IA connus — GPTBot, CCBot, Google-Extended, anthropic-ai, et les autres.

Ajoutez une clause d’opt-out dans vos CGU : le SNE propose un modèle type adaptable. Mentionnez explicitement l’article L. 122-5-3 du CPI et l’article 4(3) de la directive DSM.

Intégrez des métadonnées dans vos fichiers : IPTC pour les images, XMP pour les PDF.

Conservez des preuves horodatées : captures d’écran de vos CGU, logs de configuration, archives web. En cas de litige, le juge voudra voir la date à laquelle l’opt-out a été exprimé.

Côté développeurs d’IA

Mettez en place une politique copyright conforme à l’article 53(1)(c) du règlement IA, avec un responsable désigné au sein de l’entreprise.

Respectez strictement le robots.txt et identifiez les autres protocoles d’opt-out (TDMRep, en-têtes HTTP, métadonnées embarquées).

Vérifiez la licéité des sources : n’entraînez pas vos modèles sur des données provenant de sites pirates. L’exception TDM exige un accès licite — sans quoi elle ne peut même pas être invoquée.

Publiez votre résumé de données d’entraînement selon le template officiel de l’AI Office.

Anticipez les risques de mémorisation : la décision GEMA montre que la reproduction d’oeuvres dans les outputs engage la responsabilité du fournisseur, pas de l’utilisateur.

Ce qui reste à trancher

La mémorisation est-elle une reproduction ?

Munich dit oui — les paramètres d'un modèle qui permettent de recréer une oeuvre constituent une reproduction. L'interprétation est contestée. La CJUE devra probablement trancher. Un renvoi préjudiciel hongrois est en cours.

Le TDM couvre-t-il tout le processus ?

Selon Munich, l'exception ne couvre que la constitution du dataset, pas la mémorisation permanente dans le modèle. Distinction novatrice, pas encore validée par une juridiction supérieure.

Quel standard d'opt-out s'imposera ?

Robots.txt, TDMRep, CGU — les tribunaux divergent. La consultation de la Commission européenne (déc. 2025) vise un consensus, encore loin d'être atteint.

Quid de la rétroactivité ?

Les opt-out d'aujourd'hui ne protègent pas les oeuvres déjà ingérées. Problème structurel sans solution juridique claire — les modèles existants ont déjà « appris ».

Le calendrier à surveiller

17 avril 2019

Adoption de la directive DSM 2019/790

24 novembre 2021

Transposition en droit français (ordonnance)

23 juin 2022

Décret d'application français (conservation des copies)

1er août 2024

Entrée en vigueur de l'AI Act

Septembre 2024

Décision LAION (Hambourg) — première décision TDM en Europe

Mars 2025

Action SGDL/SNAC/SNE contre Meta (Paris)

10 juillet 2025

Publication du Code de bonnes pratiques GPAI

2 août 2025

Application des obligations GPAI (article 53 AI Act)

11 novembre 2025

Décision GEMA v. OpenAI (Munich) — contrefaçon confirmée

Décembre 2025

Consultation Commission européenne sur les protocoles d'opt-out

2 août 2026

Début des mesures d'exécution par l'AI Office

2 août 2027

Conformité obligatoire de tous les modèles antérieurs

En résumé

L’exception TDM (articles 3 et 4 de la directive DSM) couvre bien l’entraînement de modèles d’IA — le règlement IA le confirme explicitement. Les titulaires de droits peuvent s’opposer au TDM commercial via un opt-out lisible par machine, mais l’exercice reste un parcours d’obstacles technique et juridique.

La décision GEMA v. OpenAI (Munich, novembre 2025) a posé un jalon majeur : la mémorisation d’oeuvres dans un LLM constitue une contrefaçon, et le fournisseur du modèle — pas l’utilisateur — en est responsable. En France, l’action contre Meta sera le premier test de l’exception TDM en droit français dans le contexte de l’IA générative.

Le Code de bonnes pratiques GPAI crée une présomption de conformité à l’AI Act, mais pas un bouclier contre la contrefaçon. Pour une protection efficace, il faut combiner clause contractuelle d’opt-out et protocole technique — TDMRep plus robots.txt au minimum.

Le bras de fer entre créateurs et machines ne fait que commencer. Les prochaines audiences — et surtout le premier renvoi préjudiciel devant la CJUE — dessineront le droit d’auteur du XXIe siècle.

Sources principales et références

• Directive DSM 2019/790 — EUR-Lex

• Article L. 122-5-3 du CPI — Légifrance

• Article 53 du règlement IA — Artificial Intelligence Act

• Code de bonnes pratiques GPAI — AI Office

• Analyse GEMA v. OpenAI — Bird & Bird

• Analyse GEMA v. OpenAI — Norton Rose Fulbright

• TDM et entraînement IA — TechnoLlama

• Conséquences GEMA v. OpenAI — Philippe Schmitt Avocats

• Action contre Meta — SGDL

• Exception TDM en droit français — Ouvrir la Science

• Clause-type opt-out — SNE