Taxonomie des risques IA — Sécurité IA et Red Teaming

Pourquoi cartographier les risques IA ?

Avant de défendre un système, il faut comprendre ce qui peut mal tourner. Les applications basées sur des LLM — chatbots, agents autonomes, pipelines RAG — exposent une surface d’attaque radicalement différente des logiciels traditionnels. En 2026, les incidents de sécurité IA se comptent par milliers : fuites de données via prompt injection, génération de contenu illicite, manipulation d’agents autonomes.

Cette leçon vous donne une grille de lecture structurée pour identifier, classer et prioriser les risques spécifiques aux systèmes d’intelligence artificielle.

Les grandes familles de risques

Risques liés aux entrées (Input Risks)

Les attaques par les entrées visent à manipuler le comportement du modèle en contrôlant ce qu’il reçoit :

Prompt injection directe : l’utilisateur insère des instructions malveillantes dans son message
Prompt injection indirecte : des instructions cachées dans des documents, pages web ou emails traités par le modèle
Jailbreaking : contournement des garde-fous pour obtenir du contenu interdit
Évasion de filtre : encodage, traduction ou reformulation pour échapper aux filtres

Risques liés aux sorties (Output Risks)

Les sorties du modèle peuvent elles-mêmes poser problème :

Hallucinations factuelles : informations fausses présentées comme vraies
Génération de contenu dangereux : code malveillant, instructions illicites
Fuite de données d’entraînement : le modèle restitue des données sensibles mémorisées
Exécution de code non contrôlée : un agent exécute du code généré sans validation

Risques liés à l’infrastructure

Exfiltration via les outils : un agent compromis utilise ses outils (API, fichiers) pour extraire des données
Escalade de privilèges : un agent obtient des permissions au-delà de son périmètre
Déni de service : requêtes massives ou boucles infinies d’agents

Le framework OWASP Top 10 pour les LLM

L’OWASP a publié un classement des 10 risques majeurs pour les applications LLM. Voici les catégories essentielles :

Rang	Risque	Impact
1	Prompt Injection	Prise de contrôle du comportement
2	Fuite de données sensibles	Exposition de données confidentielles
3	Supply chain empoisonnée	Modèle ou plugin compromis
4	Exécution de code non sécurisée	Compromission du système hôte
5	Permissions excessives	Actions non autorisées par l'agent

Modéliser la surface d’attaque

Pour chaque application IA, posez-vous ces questions :

Qui peut envoyer des entrées ? — Utilisateurs directs, documents ingérés, APIs tierces
Quels outils le modèle peut-il appeler ? — Base de données, système de fichiers, APIs externes
Quelles données sont accessibles ? — Prompt système, RAG, historique de conversation
Où vont les sorties ? — Affichage, exécution de code, envoi d’emails

# Exemple : cartographie simple d'une surface d'attaque
surface_attaque = {
    "entrees": {
        "directes": ["chat utilisateur", "formulaire web"],
        "indirectes": ["documents RAG", "emails ingérés", "pages web scrapées"],
    },
    "outils": ["base_de_données", "api_email", "système_fichiers"],
    "données_accessibles": ["prompt_système", "historique_conversation", "base_rag"],
    "sorties": ["réponse_chat", "exécution_code", "appels_api"],
}

def evaluer_risque(surface: dict) -> list[str]:
    """Identifie les vecteurs d'attaque prioritaires."""
    risques = []
    if surface["entrees"]["indirectes"]:
        risques.append("CRITIQUE: Prompt injection indirecte possible via sources externes")
    if "système_fichiers" in surface["outils"]:
        risques.append("ÉLEVÉ: Accès fichiers = risque d'exfiltration")
    if "exécution_code" in surface["sorties"]:
        risques.append("CRITIQUE: Exécution de code généré par le modèle")
    return risques

for risque in evaluer_risque(surface_attaque):
    print(f"⚠ {risque}")

Priorisation des risques

Tous les risques ne se valent pas. Utilisez une matrice impact × probabilité :

Critique : prompt injection indirecte dans un agent avec accès outils — probabilité haute, impact maximal
Élevé : fuite du prompt système — probabilité moyenne, impact élevé (propriété intellectuelle)
Moyen : hallucinations — probabilité haute, impact variable selon le contexte
Faible : déni de service par boucle d’agent — probabilité basse avec les bons garde-fous

Points clés à retenir

Les risques IA se classent en trois familles : entrées, sorties, infrastructure
Le framework OWASP Top 10 LLM fournit une base de référence reconnue
La surface d’attaque dépend des outils, des données accessibles et du canal de sortie
Chaque composant d’un système IA (RAG, agents, plugins) ajoute des vecteurs d’attaque
La priorisation par impact × probabilité guide l’allocation des efforts de sécurité