GPT-4, LLaMA, Mistral, Gemini — tous ont été entraînés sur des milliards de pages aspirées depuis Internet. Le scraping massif du web est le carburant des modèles d’IA générative. La question n’est plus de savoir si ces pratiques existent, mais si elles sont légales, et à quelles conditions.
La réponse européenne mobilise trois blocs juridiques qui se superposent, se complètent, et parfois se contredisent.
Le contexte jurisprudentiel est en ébullition : le tribunal de Munich a condamné OpenAI en novembre 2025, la CJUE est saisie pour la première fois d’une affaire IA-copyright, et la CNIL a publié ses recommandations sur le web scraping en juin 2025.
L’exception TDM — le mécanisme clé et ses limites
Le principal fondement juridique invoqué pour justifier le scraping d’œuvres protégées à des fins d’entraînement IA est l’exception de fouille de textes et de données (text and data mining, TDM). Elle est prévue par la directive (UE) 2019/790 sur le droit d’auteur dans le marché unique numérique (directive DSM), transposée en droit français à l’article L.122-5-3 du Code de la propriété intellectuelle.
La directive prévoit deux exceptions distinctes dont la portée diffère radicalement.
L’article 4 permet donc, en principe, de reproduire et d’extraire des œuvres protégées accessibles de manière licite pour toute finalité de fouille de données — y compris l’entraînement d’un modèle d’IA commercial. Le considérant 105 de l’AI Act confirme explicitement que le TDM s’applique dans ce contexte.
Mais cette exception est soumise à une condition majeure. L’article 4(3) prévoit que l’exception ne s’applique pas si le titulaire de droits a expressément réservé l’usage de ses œuvres par des moyens appropriés, notamment par des procédés lisibles par machine pour les contenus en ligne. C’est le mécanisme d’opt-out.
L’art de dire non en langage machine
Le système de l’article 4 repose sur une logique d’opt-out : par défaut, le scraping est autorisé. C’est aux titulaires de droits de manifester leur opposition — une inversion de la charge largement critiquée par le monde culturel.
Le considérant 18 de la directive DSM précise que pour les contenus en ligne, la réserve de droits doit être exprimée « par des procédés lisibles par machine ». En pratique, un écosystème d’outils coexiste.
<meta name="robots"> et headers X-Robots-Tag. Reconnus comme moyens « lisibles par machine ». Les balises nécessitent une implémentation page par page.La recommandation la plus sûre est de cumuler robots.txt, métadonnées et CGU explicites. Le Code de bonnes pratiques GPAI, publié le 10 juillet 2025 par le Bureau européen de l’IA, reconnaît spécifiquement le protocole robots.txt et les « autres protocoles d’exclusion appropriés ».
Munich, novembre 2025 — le jour où un tribunal a dit stop
Le 11 novembre 2025, le tribunal régional de Munich rend une décision qui fait trembler l’industrie : dans l’affaire GEMA c. OpenAI, il condamne OpenAI pour contrefaçon de droits d’auteur sur neuf chansons populaires allemandes. C’est la première condamnation d’un fournisseur d’IA générative pour violation de droits d’auteur en Europe.
L’exception TDM a été expressément rejetée par le tribunal. Les motifs sont détaillés et lourds de conséquences pour l’industrie.
Le tribunal considère que le TDM ne couvre que les reproductions temporaires nécessaires à l’analyse, pas la mémorisation durable dans les poids du modèle. Il ajoute que le considérant 17 de la directive DSM prévoit un préjudice « minimal » — or la mémorisation intégrale de paroles exploitables dans les outputs cause un préjudice substantiel. La GEMA avait par ailleurs exercé un opt-out que le tribunal a jugé valable, et l’usage dépasse le cadre d’analyse pour entrer dans le territoire de la reproduction d’œuvres exploitables.
« Cette décision fait l'objet d'un appel devant l'Oberlandesgericht München et ne concerne que GPT-4 et GPT-4o. La décision britannique Getty Images c. Stability AI (4 novembre 2025) a abouti à la conclusion inverse sur la question de la reproduction dans le modèle — illustrant les divergences européennes. »
La CJUE entre en scène — l’affaire qui va tout décider
Le 3 avril 2025, le tribunal de Budapest renvoie devant la Cour de justice de l’Union européenne la première affaire directement liée à l’IA générative et au droit d’auteur : Like Company c. Google Ireland (C-250/25).
L’éditeur hongrois Like Company reproche au chatbot Gemini de Google de reproduire et résumer ses articles de presse protégés sans autorisation. Les questions préjudicielles posées à la CJUE touchent au cœur du sujet.
Cette décision de la CJUE sera fondatrice pour l’ensemble du secteur. La Cour pourrait adopter une position protectrice des droits d’auteur, en cohérence avec sa jurisprudence constante (Infopaq, Pelham). La décision est attendue en 2026 ou 2027.
Le RGPD s’invite à la table
Le scraping du web ne se limite pas au droit d’auteur. Dès qu’il implique des données personnelles — noms, photos, adresses, commentaires — le RGPD s’applique pleinement. L’EDPB, dans son avis 28/2024, et la task force ChatGPT ont posé le cadre d’analyse au niveau européen.
Le RGPD exige une base légale pour tout traitement de données personnelles. Pour le scraping à des fins d’entraînement IA, deux bases sont principalement invoquées.
Attention : l’autorité néerlandaise (Autoriteit Persoonsgegevens) adopte une position beaucoup plus restrictive, considérant que les intérêts purement commerciaux ne suffisent pas à justifier le scraping.
Ce que la CNIL exige concrètement
Le 19 juin 2025, la CNIL publie deux fiches pratiques majeures : l’une sur l’intérêt légitime pour le développement de systèmes d’IA, l’autre spécifiquement sur la collecte de données via web scraping. Ces recommandations constituent le cadre de référence pour les acteurs français.
La CNIL confirme que le web scraping pour l’IA n’est pas interdit par principe, mais impose un niveau d’exigence élevé. Elle rejette explicitement l’idée que le consentement serait hiérarchiquement supérieur à l’intérêt légitime.
Mesures impératives
Garanties supplémentaires recommandées
Au-delà des obligations, la CNIL recommande de publier une liste actualisée des sites scrapés, d’informer largement les personnes concernées, de développer des solutions techniques facilitant le droit d’opposition avant la collecte, et de recourir à l’anonymisation ou aux données synthétiques quand c’est possible.
L’AI Act ajoute une couche de transparence
Le règlement sur l’IA (AI Act) ajoute des obligations spécifiques pour les fournisseurs de modèles d’IA à usage général (GPAI). Depuis le 2 août 2025, l’article 53 est applicable pour les nouveaux modèles mis sur le marché.
La France n’attend pas Bruxelles
La France construit activement son propre front contentieux. Le 6 mars 2025, le SNE, la SGDL et le SNAC assignent Meta devant le Tribunal judiciaire de Paris pour l’utilisation non autorisée d’œuvres protégées dans l’entraînement de LLaMA. L’action vise la base de données Books3 — environ 200 000 livres dont des œuvres françaises — et s’appuie sur la contrefaçon et le parasitisme économique.
En décembre 2025, une enquête de Mediapart révèle que Mistral AI pourrait avoir utilisé des données issues de Library Genesis, une base pirate, pour l’entraînement de ses modèles. L’éditeur Nouveau Monde Editions a engagé une procédure séparée.
Trois philosophies, un seul web
Le cadre juridique européen diffère radicalement des approches américaine et britannique. Là où l’Europe a codifié un mécanisme d’opt-out, les États-Unis s’en remettent au fair use — une évaluation au cas par cas, sans mécanisme de réserve pour les auteurs.
Le système d’opt-out de l’article 4 place les développeurs d’IA européens dans une situation paradoxale : ils dépendent de la bonne volonté des titulaires de droits, ce qui peut les désavantager par rapport aux concurrents américains opérant sous le régime plus flexible du fair use.
Le plan d’action pour les entreprises françaises
Que vous développiez un modèle d’IA ou que vous intégriez un modèle tiers dans votre produit, voici les mesures concrètes à mettre en place.
Ce qu’il faut retenir
Concrètement, pour une entreprise française : documentez tout, respectez les opt-out, filtrez les données sensibles, et préparez-vous à justifier chaque aspect de votre pipeline de données devant un régulateur.