Un workflow d'evaluation type
Un workflow d’evaluation de prompts suit cinq etapes cles pour ameliorer vos prompts de maniere systematique.
Etape 1 : Rediger un prompt
Ecrivez un prompt initial simple, meme basique :
prompt = f"""
Reponds a la question de l'utilisateur :
{question}
"""
Etape 2 : Creer un jeu de donnees d’evaluation
Assemblez une collection d’entrees de test. Pour un prompt a une seule variable (la question), il faut differentes questions :
- Combien font 2+2 ?
- Comment preparer du porridge ?
- A quelle distance se trouve la Lune ?
Etape 3 : Soumettre a Claude
Fusionnez chaque question du jeu de donnees avec votre template de prompt, envoyez le tout a Claude et collectez les reponses.
Etape 4 : Passer par un evaluateur
Soumettez chaque paire question-reponse a un evaluateur qui attribue un score (generalement de 1 a 10). Calculez la moyenne des scores. Par exemple, des scores de 10, 4 et 9 donnent une moyenne de 7,66.
Etape 5 : Modifier le prompt et recommencer
Avec votre score de reference etabli, modifiez le prompt et relancez le processus :
prompt = f"""
Reponds a la question de l'utilisateur :
{question}
Reponds avec des details suffisants.
"""
Si le prompt v1 obtient 7,66 et le v2 obtient 8,7, vous avez une preuve objective que l’ajout de “Reponds avec des details suffisants” a ameliore la performance.