Aller au contenu principal

Taxonomie des risques IA

Pourquoi cartographier les risques IA ?

Avant de défendre un système, il faut comprendre ce qui peut mal tourner. Les applications basées sur des LLM — chatbots, agents autonomes, pipelines RAG — exposent une surface d’attaque radicalement différente des logiciels traditionnels. En 2026, les incidents de sécurité IA se comptent par milliers : fuites de données via prompt injection, génération de contenu illicite, manipulation d’agents autonomes.

Cette leçon vous donne une grille de lecture structurée pour identifier, classer et prioriser les risques spécifiques aux systèmes d’intelligence artificielle.

Les grandes familles de risques

Risques liés aux entrées (Input Risks)

Les attaques par les entrées visent à manipuler le comportement du modèle en contrôlant ce qu’il reçoit :

  • Prompt injection directe : l’utilisateur insère des instructions malveillantes dans son message
  • Prompt injection indirecte : des instructions cachées dans des documents, pages web ou emails traités par le modèle
  • Jailbreaking : contournement des garde-fous pour obtenir du contenu interdit
  • Évasion de filtre : encodage, traduction ou reformulation pour échapper aux filtres

Risques liés aux sorties (Output Risks)

Les sorties du modèle peuvent elles-mêmes poser problème :

  • Hallucinations factuelles : informations fausses présentées comme vraies
  • Génération de contenu dangereux : code malveillant, instructions illicites
  • Fuite de données d’entraînement : le modèle restitue des données sensibles mémorisées
  • Exécution de code non contrôlée : un agent exécute du code généré sans validation

Risques liés à l’infrastructure

  • Exfiltration via les outils : un agent compromis utilise ses outils (API, fichiers) pour extraire des données
  • Escalade de privilèges : un agent obtient des permissions au-delà de son périmètre
  • Déni de service : requêtes massives ou boucles infinies d’agents

Le framework OWASP Top 10 pour les LLM

L’OWASP a publié un classement des 10 risques majeurs pour les applications LLM. Voici les catégories essentielles :

Rang Risque Impact
1 Prompt Injection Prise de contrôle du comportement
2 Fuite de données sensibles Exposition de données confidentielles
3 Supply chain empoisonnée Modèle ou plugin compromis
4 Exécution de code non sécurisée Compromission du système hôte
5 Permissions excessives Actions non autorisées par l'agent

Modéliser la surface d’attaque

Pour chaque application IA, posez-vous ces questions :

  1. Qui peut envoyer des entrées ? — Utilisateurs directs, documents ingérés, APIs tierces
  2. Quels outils le modèle peut-il appeler ? — Base de données, système de fichiers, APIs externes
  3. Quelles données sont accessibles ? — Prompt système, RAG, historique de conversation
  4. Où vont les sorties ? — Affichage, exécution de code, envoi d’emails
# Exemple : cartographie simple d'une surface d'attaque
surface_attaque = {
    "entrees": {
        "directes": ["chat utilisateur", "formulaire web"],
        "indirectes": ["documents RAG", "emails ingérés", "pages web scrapées"],
    },
    "outils": ["base_de_données", "api_email", "système_fichiers"],
    "données_accessibles": ["prompt_système", "historique_conversation", "base_rag"],
    "sorties": ["réponse_chat", "exécution_code", "appels_api"],
}

def evaluer_risque(surface: dict) -> list[str]:
    """Identifie les vecteurs d'attaque prioritaires."""
    risques = []
    if surface["entrees"]["indirectes"]:
        risques.append("CRITIQUE: Prompt injection indirecte possible via sources externes")
    if "système_fichiers" in surface["outils"]:
        risques.append("ÉLEVÉ: Accès fichiers = risque d'exfiltration")
    if "exécution_code" in surface["sorties"]:
        risques.append("CRITIQUE: Exécution de code généré par le modèle")
    return risques

for risque in evaluer_risque(surface_attaque):
    print(f"⚠ {risque}")

Priorisation des risques

Tous les risques ne se valent pas. Utilisez une matrice impact × probabilité :

  • Critique : prompt injection indirecte dans un agent avec accès outils — probabilité haute, impact maximal
  • Élevé : fuite du prompt système — probabilité moyenne, impact élevé (propriété intellectuelle)
  • Moyen : hallucinations — probabilité haute, impact variable selon le contexte
  • Faible : déni de service par boucle d’agent — probabilité basse avec les bons garde-fous

Points clés à retenir

  • Les risques IA se classent en trois familles : entrées, sorties, infrastructure
  • Le framework OWASP Top 10 LLM fournit une base de référence reconnue
  • La surface d’attaque dépend des outils, des données accessibles et du canal de sortie
  • Chaque composant d’un système IA (RAG, agents, plugins) ajoute des vecteurs d’attaque
  • La priorisation par impact × probabilité guide l’allocation des efforts de sécurité