Workflow d'evaluation type — Claude sur Amazon Bedrock

Un workflow d’evaluation de prompts suit une approche systematique pour mesurer et ameliorer objectivement vos prompts. Il existe de nombreux outils open source et payants, mais comprendre le processus de base vous permet de commencer simplement et de monter en echelle.

Etape 1 : Rediger le prompt initial

Commencez par un prompt basique que vous voulez ameliorer :

prompt = f"""
Veuillez repondre a la question de l'utilisateur :

{question}
"""

C’est votre base de reference. Vous ne saurez pas s’il est efficace tant que vous ne l’aurez pas evalue avec une methodologie objective.

Etape 2 : Creer un jeu de donnees d’evaluation

Votre jeu de donnees contient des exemples d’entrees que vous injecterez dans votre prompt. Assemblez ces exemples manuellement ou generez-les avec Claude. En production, vous pourriez avoir des centaines ou des milliers d’enregistrements, mais commencer avec trois questions suffit :

Combien font 2+2 ?
Comment preparer des flocons d’avoine ?
A quelle distance se trouve la Lune ?

Etape 3 : Passer dans Claude

Prenez chaque question du jeu de donnees, fusionnez-la avec votre modele de prompt, puis envoyez chaque prompt complet a Claude et collectez les reponses.

Etape 4 : Passer dans un evaluateur

L’etape cruciale : noter objectivement les reponses de Claude. Chaque paire question-reponse est soumise a un evaluateur qui attribue un score (generalement de 1 a 10) :

10 = Reponse parfaite, rien a ameliorer
4 = Marge d’amelioration evidente
1 = Reponse mediocre ou incorrecte

Calculez la moyenne des scores pour obtenir une metrique de performance globale.

Etape 5 : Modifier le prompt et recommencer

Avec votre score de reference etabli, iterez sur votre prompt. Ajoutez des instructions plus specifiques :

prompt = f"""
Veuillez repondre a la question de l'utilisateur :

{question}

Repondez avec suffisamment de detail.
"""

Refaites passer ce nouveau prompt dans le pipeline complet. Comparez les scores pour determiner quelle version est la meilleure.

Notation et iteration

Dans cet exemple :

Prompt v1 : score de 7.66
Prompt v2 : score de 8.7

Le score plus eleve du v2 indique que l’ajout de “Repondez avec suffisamment de detail” a ameliore la performance.

Cette approche systematique vous donne un moyen objectif de mesurer les ameliorations plutot que de vous fier au jugement subjectif.