Web scraping et IA : a-t-on le droit d'aspirer le web pour entraîner son modèle ?

GPT-4, LLaMA, Mistral, Gemini — tous ont été entraînés sur des milliards de pages aspirées depuis Internet. Le scraping massif du web est le carburant des modèles d’IA générative. La question n’est plus de savoir si ces pratiques existent, mais si elles sont légales, et à quelles conditions.

La réponse européenne mobilise trois blocs juridiques qui se superposent, se complètent, et parfois se contredisent.

Pilier 1

Droit d'auteur

Directive DSM 2019 — exception TDM avec mécanisme d'opt-out pour les titulaires de droits.

Articles 3 & 4

Pilier 2

RGPD

Protection des données personnelles — intérêt légitime sous conditions strictes, recommandations CNIL.

Article 6.1.f

Pilier 3

AI Act

Transparence obligatoire — résumé des données d'entraînement, politique copyright, portée extraterritoriale.

Article 53

Le contexte jurisprudentiel est en ébullition : le tribunal de Munich a condamné OpenAI en novembre 2025, la CJUE est saisie pour la première fois d’une affaire IA-copyright, et la CNIL a publié ses recommandations sur le web scraping en juin 2025.

L’exception TDM — le mécanisme clé et ses limites

Le principal fondement juridique invoqué pour justifier le scraping d’œuvres protégées à des fins d’entraînement IA est l’exception de fouille de textes et de données (text and data mining, TDM). Elle est prévue par la directive (UE) 2019/790 sur le droit d’auteur dans le marché unique numérique (directive DSM), transposée en droit français à l’article L.122-5-3 du Code de la propriété intellectuelle.

La directive prévoit deux exceptions distinctes dont la portée diffère radicalement.

Article 3 — TDM recherche

✓ Organismes de recherche et institutions culturelles

✓ Recherche scientifique uniquement

✕ Aucun opt-out possible

Article 4 — TDM général

✓ Toute personne, y compris les entreprises

✓ Toute finalité, y compris commerciale

! Opt-out possible — les titulaires de droits peuvent s'opposer

L’article 4 permet donc, en principe, de reproduire et d’extraire des œuvres protégées accessibles de manière licite pour toute finalité de fouille de données — y compris l’entraînement d’un modèle d’IA commercial. Le considérant 105 de l’AI Act confirme explicitement que le TDM s’applique dans ce contexte.

Mais cette exception est soumise à une condition majeure. L’article 4(3) prévoit que l’exception ne s’applique pas si le titulaire de droits a expressément réservé l’usage de ses œuvres par des moyens appropriés, notamment par des procédés lisibles par machine pour les contenus en ligne. C’est le mécanisme d’opt-out.

L’art de dire non en langage machine

Le système de l’article 4 repose sur une logique d’opt-out : par défaut, le scraping est autorisé. C’est aux titulaires de droits de manifester leur opposition — une inversion de la charge largement critiquée par le monde culturel.

Le considérant 18 de la directive DSM précise que pour les contenus en ligne, la réserve de droits doit être exprimée « par des procédés lisibles par machine ». En pratique, un écosystème d’outils coexiste.

📄

robots.txt reconnu

Fichier à la racine du site indiquant aux crawlers les pages interdites. Reconnu par le Code of Practice GPAI — mais non contraignant techniquement, les crawlers peuvent l'ignorer.

🔖

Balises meta & en-têtes HTTP reconnu

Balises HTML <meta name="robots"> et headers X-Robots-Tag. Reconnus comme moyens « lisibles par machine ». Les balises nécessitent une implémentation page par page.

📝

CGU du site débattu

Clauses interdisant le scraping dans les conditions d'utilisation. Efficacité contestée — Hambourg dit oui, Amsterdam dit non. La CJUE devra trancher.

🔒

ai.txt émergent

Nouveau standard proposé, spécifiquement conçu pour l'IA. Pas encore standardisé, adoption limitée — mais à surveiller.

La recommandation la plus sûre est de cumuler robots.txt, métadonnées et CGU explicites. Le Code de bonnes pratiques GPAI, publié le 10 juillet 2025 par le Bureau européen de l’IA, reconnaît spécifiquement le protocole robots.txt et les « autres protocoles d’exclusion appropriés ».

⚠️

Divergence jurisprudentielle ouverte

Le tribunal de Hambourg (Kneschke c. LAION, sept. 2024) estime qu'un texte en langage naturel interdisant les « programmes automatisés » peut suffire comme opt-out. Le tribunal d'Amsterdam (DPG Media c. Knowledge Exchange, oct. 2024) exige un format lisible par machine. La CJUE devra trancher dans l'affaire Like Company c. Google Ireland (C-250/25).

Munich, novembre 2025 — le jour où un tribunal a dit stop

Le 11 novembre 2025, le tribunal régional de Munich rend une décision qui fait trembler l’industrie : dans l’affaire GEMA c. OpenAI, il condamne OpenAI pour contrefaçon de droits d’auteur sur neuf chansons populaires allemandes. C’est la première condamnation d’un fournisseur d’IA générative pour violation de droits d’auteur en Europe.

Tribunal régional de Munich · 11 nov. 2025

GEMA c. OpenAI

CONDAMNATION

Reproduction illicite

La mémorisation des paroles dans les paramètres du modèle (GPT-4 et GPT-4o) constitue une fixation matérielle au sens de l'article 2 de la directive 2001/29/CE — même sous forme de valeurs de probabilités.

Communication au public

La restitution des paroles en réponse aux requêtes des utilisateurs constitue une mise à disposition au public, dont OpenAI — et non l'utilisateur — est responsable.

L’exception TDM a été expressément rejetée par le tribunal. Les motifs sont détaillés et lourds de conséquences pour l’industrie.

Le tribunal considère que le TDM ne couvre que les reproductions temporaires nécessaires à l’analyse, pas la mémorisation durable dans les poids du modèle. Il ajoute que le considérant 17 de la directive DSM prévoit un préjudice « minimal » — or la mémorisation intégrale de paroles exploitables dans les outputs cause un préjudice substantiel. La GEMA avait par ailleurs exercé un opt-out que le tribunal a jugé valable, et l’usage dépasse le cadre d’analyse pour entrer dans le territoire de la reproduction d’œuvres exploitables.

« Cette décision fait l'objet d'un appel devant l'Oberlandesgericht München et ne concerne que GPT-4 et GPT-4o. La décision britannique Getty Images c. Stability AI (4 novembre 2025) a abouti à la conclusion inverse sur la question de la reproduction dans le modèle — illustrant les divergences européennes. »

La CJUE entre en scène — l’affaire qui va tout décider

Le 3 avril 2025, le tribunal de Budapest renvoie devant la Cour de justice de l’Union européenne la première affaire directement liée à l’IA générative et au droit d’auteur : Like Company c. Google Ireland (C-250/25).

L’éditeur hongrois Like Company reproche au chatbot Gemini de Google de reproduire et résumer ses articles de presse protégés sans autorisation. Les questions préjudicielles posées à la CJUE touchent au cœur du sujet.

● La reproduction d'œuvres lors de l'entraînement d'un LLM constitue-t-elle un acte de reproduction au sens de l'article 2 de la directive InfoSoc ?

● Les outputs générés par un chatbot constituent-ils une communication au public ?

● L'exception TDM de l'article 4 de la directive DSM couvre-t-elle l'entraînement commercial de modèles d'IA ?

● Qu'est-ce qu'une « réserve de droits appropriée » au sens de l'article 4(3) ?

Cette décision de la CJUE sera fondatrice pour l’ensemble du secteur. La Cour pourrait adopter une position protectrice des droits d’auteur, en cohérence avec sa jurisprudence constante (Infopaq, Pelham). La décision est attendue en 2026 ou 2027.

Le RGPD s’invite à la table

Le scraping du web ne se limite pas au droit d’auteur. Dès qu’il implique des données personnelles — noms, photos, adresses, commentaires — le RGPD s’applique pleinement. L’EDPB, dans son avis 28/2024, et la task force ChatGPT ont posé le cadre d’analyse au niveau européen.

Le RGPD exige une base légale pour tout traitement de données personnelles. Pour le scraping à des fins d’entraînement IA, deux bases sont principalement invoquées.

Consentement · art. 6.1.a

Consentement libre, éclairé, spécifique de chaque personne concernée.

Quasi impossible

Obtenir le consentement de millions de personnes scrapées est irréaliste en pratique.

Intérêt légitime · art. 6.1.f

Triple test : intérêt légitime du responsable + nécessité du traitement + balance avec les droits des personnes.

Base privilégiée

CNIL et EDPB la reconnaissent, mais sous conditions strictes de minimisation.

Attention : l’autorité néerlandaise (Autoriteit Persoonsgegevens) adopte une position beaucoup plus restrictive, considérant que les intérêts purement commerciaux ne suffisent pas à justifier le scraping.

Ce que la CNIL exige concrètement

Le 19 juin 2025, la CNIL publie deux fiches pratiques majeures : l’une sur l’intérêt légitime pour le développement de systèmes d’IA, l’autre spécifiquement sur la collecte de données via web scraping. Ces recommandations constituent le cadre de référence pour les acteurs français.

La CNIL confirme que le web scraping pour l’IA n’est pas interdit par principe, mais impose un niveau d’exigence élevé. Elle rejette explicitement l’idée que le consentement serait hiérarchiquement supérieur à l’intérêt légitime.

Mesures impératives

✓ Définir en amont des critères précis de collecte — schéma de données, liste de sites ciblés

✓ Exclure certaines catégories de données non nécessaires via des filtres techniques

✓ Exclure les sites s'opposant au scraping — robots.txt, CAPTCHA, CGU

✓ Exclure les sites hébergeant majoritairement des données sensibles — forums santé, sites pornographiques, bases généalogiques

✓ Supprimer immédiatement les données non pertinentes collectées par erreur

Garanties supplémentaires recommandées

Au-delà des obligations, la CNIL recommande de publier une liste actualisée des sites scrapés, d’informer largement les personnes concernées, de développer des solutions techniques facilitant le droit d’opposition avant la collecte, et de recourir à l’anonymisation ou aux données synthétiques quand c’est possible.

💡

Soft law, mais pas sans conséquences

Ces recommandations ne sont pas juridiquement contraignantes. Mais les entreprises qui s'en écartent s'exposent à un examen plus sévère lors des contrôles de la CNIL.

L’AI Act ajoute une couche de transparence

Le règlement sur l’IA (AI Act) ajoute des obligations spécifiques pour les fournisseurs de modèles d’IA à usage général (GPAI). Depuis le 2 août 2025, l’article 53 est applicable pour les nouveaux modèles mis sur le marché.

Documentation technique

Documentation détaillée pour les autorités et fournisseurs en aval.

Applicable depuis le 2 août 2025

Politique copyright

Politique formelle de respect du droit d'auteur UE, incluant le respect des opt-out de l'article 4(3) DSM.

Applicable depuis le 2 août 2025

Résumé des données d'entraînement

Publication d'un résumé détaillé du contenu utilisé, selon un template obligatoire — top domaines scrapés, types de contenus, méthodes de collecte.

2 août 2025 (nouveaux) · 2 août 2027 (existants)

Code de bonnes pratiques

Adhésion volontaire au Code of Practice GPAI pour bénéficier d'une présomption de conformité.

Publié le 10 juillet 2025

🚨

Portée extraterritoriale

L'article 53 s'applique quel que soit le lieu d'entraînement du modèle, dès lors qu'il est mis sur le marché européen. Un modèle entraîné aux États-Unis ou en Chine doit se conformer dès qu'il est accessible dans l'UE. Sanctions : jusqu'à 10 M€ ou 2 % du CA mondial.

La France n’attend pas Bruxelles

La France construit activement son propre front contentieux. Le 6 mars 2025, le SNE, la SGDL et le SNAC assignent Meta devant le Tribunal judiciaire de Paris pour l’utilisation non autorisée d’œuvres protégées dans l’entraînement de LLaMA. L’action vise la base de données Books3 — environ 200 000 livres dont des œuvres françaises — et s’appuie sur la contrefaçon et le parasitisme économique.

En décembre 2025, une enquête de Mediapart révèle que Mistral AI pourrait avoir utilisé des données issues de Library Genesis, une base pirate, pour l’entraînement de ses modèles. L’éditeur Nouveau Monde Editions a engagé une procédure séparée.

Contentieux & sanctions — France

2022 — Clearview AI

20 millions d'euros d'amende CNIL pour collecte massive de photos faciales sans consentement.

2024 — Kaspr

240 000 € d'amende CNIL pour collecte de données LinkedIn à des fins de prospection commerciale.

Mars 2025 — SNE/SGDL/SNAC c. Meta

Assignation devant le TJ Paris — contrefaçon et parasitisme via Books3 (200 000 livres).

Déc. 2025 — Mistral AI

Enquête Mediapart sur l'utilisation de Library Genesis. Procédure de Nouveau Monde Editions en cours.

Trois philosophies, un seul web

Le cadre juridique européen diffère radicalement des approches américaine et britannique. Là où l’Europe a codifié un mécanisme d’opt-out, les États-Unis s’en remettent au fair use — une évaluation au cas par cas, sans mécanisme de réserve pour les auteurs.

Union européenne

Exception : TDM (art. 3 & 4 DSM) avec opt-out

Opt-out : Oui, par moyens lisibles par machine

Transparence : Obligatoire (AI Act, art. 53)

Sanctions : 10 M€ ou 2 % CA + sanctions RGPD

Jurisprudence : GEMA c. OpenAI (condamnation)

États-Unis

Exception : Fair use (cas par cas)

Opt-out : Non, aucun mécanisme prévu

Transparence : Aucune obligation fédérale

Sanctions : Dommages-intérêts (pas de plafond)

Jurisprudence : NYT c. OpenAI (en cours)

Royaume-Uni

Exception : TDM recherche uniquement (s.29A CDPA)

Opt-out : En discussion (standard envisagé)

Transparence : Pas d'obligation légale

Sanctions : Dommages-intérêts

Jurisprudence : Getty c. Stability AI (pas de copie)

Le système d’opt-out de l’article 4 place les développeurs d’IA européens dans une situation paradoxale : ils dépendent de la bonne volonté des titulaires de droits, ce qui peut les désavantager par rapport aux concurrents américains opérant sous le régime plus flexible du fair use.

Le plan d’action pour les entreprises françaises

Que vous développiez un modèle d’IA ou que vous intégriez un modèle tiers dans votre produit, voici les mesures concrètes à mettre en place.

Auditez vos sources de données

Identifiez l'ensemble des datasets utilisés. Vérifiez qu'aucun contenu protégé n'a été inclus sans respect de l'opt-out. Documentez la provenance de chaque source.

Implémentez une politique copyright conforme à l'article 53

Rédigez une politique formelle décrivant comment vous identifiez et respectez les réserves de droits. Si vous adhérez au Code of Practice GPAI, vous bénéficiez d'une présomption de conformité.

Préparez votre résumé des données d'entraînement

Utilisez le template obligatoire du Bureau de l'IA. Listez les top domaines scrapés, les datasets publics et les sources sous licence.

Conduisez une analyse d'impact (AIPD)

Dès que votre scraping implique des données personnelles à grande échelle, l'AIPD est quasi systématiquement requise par la CNIL.

Mettez en place des filtres techniques

Excluez les sites sensibles, respectez les signaux robots.txt, supprimez les données non pertinentes. Utilisez des listes d'exclusion par défaut.

Facilitez l'exercice des droits

Permettez aux personnes de s'opposer au traitement de leurs données. Développez des solutions techniques d'opposition avant la collecte.

Surveillez la jurisprudence

L'affaire Like Company c. Google (C-250/25) devant la CJUE pourrait bouleverser l'interprétation de l'exception TDM. L'appel GEMA c. OpenAI est également à suivre.

Ce qu’il faut retenir

Le web scraping pour entraîner un modèle d'IA est possible en Europe, mais encadré par trois régimes juridiques superposés : droit d'auteur (exception TDM avec opt-out), RGPD (intérêt légitime sous conditions) et AI Act (transparence obligatoire).

L'exception TDM de l'article 4 de la directive DSM s'applique à l'entraînement IA — confirmé par l'AI Act et deux tribunaux allemands. Mais elle peut être neutralisée par un opt-out valide ou par la mémorisation permanente d'œuvres dans le modèle (décision GEMA c. OpenAI).

La CNIL a confirmé en juin 2025 que le scraping peut reposer sur l'intérêt légitime, mais exige des garanties techniques et organisationnelles strictes : minimisation, exclusions, transparence, droit d'opposition.

Depuis le 2 août 2025, les fournisseurs de modèles GPAI doivent publier un résumé de leurs données d'entraînement et mettre en place une politique copyright — y compris pour les modèles entraînés hors UE.

La décision de la CJUE dans l'affaire Like Company c. Google (C-250/25) sera déterminante pour clarifier la portée de l'exception TDM appliquée à l'IA générative. Attendue en 2026-2027.

Concrètement, pour une entreprise française : documentez tout, respectez les opt-out, filtrez les données sensibles, et préparez-vous à justifier chaque aspect de votre pipeline de données devant un régulateur.