Executer l'evaluation
Avec le jeu de donnees pret, construisons le pipeline d’evaluation : prendre chaque cas de test, le fusionner avec le prompt, l’envoyer a Claude, puis noter le resultat.
Les trois fonctions du pipeline
run_prompt : fusionner prompt et cas de test
def run_prompt(test_case):
prompt = f"""
Resous la tache suivante :
{test_case["task"]}
"""
messages = []
add_user_message(messages, prompt)
output = chat(messages)
return output
run_test_case : executer et noter
def run_test_case(test_case):
output = run_prompt(test_case)
score = 10 # Placeholder - a remplacer par un vrai evaluateur
return {
"output": output,
"test_case": test_case,
"score": score
}
run_eval : coordonner l’ensemble
def run_eval(dataset):
results = []
for test_case in dataset:
result = run_test_case(test_case)
results.append(result)
return results
Execution
with open("dataset.json", "r") as f:
dataset = json.load(f)
results = run_eval(dataset)
Chaque resultat contient : le texte de sortie, le cas de test original et le score. La prochaine etape est de remplacer le score en dur par un vrai systeme d’evaluation.