Introduction a l'evaluation de prompts

Prompt engineering vs prompt evaluation

Vous avez appris a ecrire des prompts efficaces. Mais comment savez-vous qu’un prompt est reellement meilleur qu’un autre ? C’est la que l’evaluation de prompts entre en jeu.

Le prompt engineering consiste a ecrire et affiner des instructions pour Claude
L’evaluation de prompts consiste a mesurer objectivement la qualite des reponses produites

L’un sans l’autre ne sert a rien. Un prompt qui “a l’air bien” peut s’effondrer sur des cas limites. Un pipeline d’evaluation sans bon prompt ne produira que des scores bas.

Les trois approches apres avoir ecrit un prompt

Quand vous avez redige un prompt, vous avez trois options :

1. Tester une seule fois

Vous envoyez une requete, la reponse semble correcte, vous deployez.

Le probleme : Claude est non-deterministe. Une seule reponse ne prouve rien. Votre prompt peut tres bien fonctionner sur “Quelle est la capitale de la France ?” et echouer lamentablement sur “Quel est le plus petit pays d’Europe par population ?“.

2. Tester quelques fois a la main

Vous essayez 5-10 requetes differentes, vous verifiez visuellement. C’est mieux, mais :

Vous etes biaise : vous testez inconsciemment les cas que votre prompt gere bien
Vous ne pouvez pas comparer deux versions de prompt objectivement
Vous ne detectez pas les regressions quand vous modifiez le prompt

3. Passer par un pipeline d’evaluation

Vous creez un jeu de donnees de test, vous faites tourner votre prompt sur chaque cas, et vous notez automatiquement les resultats. C’est la seule approche qui fonctionne a grande echelle.

Pourquoi les developpeurs tombent dans le piege

Le piege classique :

Vous ecrivez un prompt
Vous testez sur 2-3 exemples, ca marche
Vous deployez en production
Des utilisateurs reels envoient des requetes inattendues
Le modele produit des reponses mediocres ou incorrectes
Vous corrigez le prompt a la main, en cassant autre chose au passage
Retour a l’etape 2

Ce cycle est frustrant et inefficace. L’evaluation systematique le brise.

L’approche evaluation-first

L’idee est simple : avant de toucher au prompt, definissez comment vous allez mesurer son succes.

Etape 1 : Identifier les criteres de qualite

Que signifie “bonne reponse” pour votre cas d’usage ?

Exactitude : les faits sont-ils corrects ?
Format : la sortie respecte-t-elle le format attendu ?
Completude : tous les points demandes sont-ils couverts ?
Ton : le style est-il adapte au contexte ?
Securite : le modele refuse-t-il les requetes hors scope ?

Etape 2 : Creer un jeu de test representatif

Un ensemble de cas d’usage reels couvrant :

Les cas normaux (80% du trafic)
Les cas limites (edge cases)
Les cas adverses (tentatives de contournement)

Etape 3 : Automatiser la notation

Utiliser un systeme de notation (code, modele AI, ou humain) pour evaluer chaque reponse sur vos criteres.

Etape 4 : Iterer avec confiance

Quand vous modifiez votre prompt, relancez l’evaluation. Le score monte ? Vous avez ameliore. Il baisse ? Vous avez casse quelque chose. Pas de doute, pas de debat — des chiffres.

Ce que cette section va couvrir

Dans les prochaines lecons, vous allez :

Mettre en place un workflow d’evaluation complet
Generer des jeux de test automatiquement avec Claude
Executer l’evaluation sur votre prompt
Implementer un systeme de notation par modele pour automatiser le scoring

A la fin de cette section, vous aurez un pipeline d’evaluation reutilisable pour n’importe quel projet avec Claude.