Un workflow d'evaluation type

Un workflow d’evaluation de prompts suit cinq etapes cles pour ameliorer vos prompts de maniere systematique.

Etape 1 : Rediger un prompt

Ecrivez un prompt initial simple, meme basique :

prompt = f"""
Reponds a la question de l'utilisateur :

{question}
"""

Etape 2 : Creer un jeu de donnees d’evaluation

Assemblez une collection d’entrees de test. Pour un prompt a une seule variable (la question), il faut differentes questions :

Combien font 2+2 ?
Comment preparer du porridge ?
A quelle distance se trouve la Lune ?

Etape 3 : Soumettre a Claude

Fusionnez chaque question du jeu de donnees avec votre template de prompt, envoyez le tout a Claude et collectez les reponses.

Etape 4 : Passer par un evaluateur

Soumettez chaque paire question-reponse a un evaluateur qui attribue un score (generalement de 1 a 10). Calculez la moyenne des scores. Par exemple, des scores de 10, 4 et 9 donnent une moyenne de 7,66.

Etape 5 : Modifier le prompt et recommencer

Avec votre score de reference etabli, modifiez le prompt et relancez le processus :

prompt = f"""
Reponds a la question de l'utilisateur :

{question}

Reponds avec des details suffisants.
"""

Si le prompt v1 obtient 7,66 et le v2 obtient 8,7, vous avez une preuve objective que l’ajout de “Reponds avec des details suffisants” a ameliore la performance.