Executer l'evaluation

Avec le jeu de donnees pret, construisons le pipeline d’evaluation : prendre chaque cas de test, le fusionner avec le prompt, l’envoyer a Claude, puis noter le resultat.

Les trois fonctions du pipeline

run_prompt : fusionner prompt et cas de test

def run_prompt(test_case):
    prompt = f"""
Resous la tache suivante :

{test_case["task"]}
"""
    messages = []
    add_user_message(messages, prompt)
    output = chat(messages)
    return output

run_test_case : executer et noter

def run_test_case(test_case):
    output = run_prompt(test_case)
    score = 10  # Placeholder - a remplacer par un vrai evaluateur
    return {
        "output": output,
        "test_case": test_case,
        "score": score
    }

run_eval : coordonner l’ensemble

def run_eval(dataset):
    results = []
    for test_case in dataset:
        result = run_test_case(test_case)
        results.append(result)
    return results

Execution

with open("dataset.json", "r") as f:
    dataset = json.load(f)

results = run_eval(dataset)

Chaque resultat contient : le texte de sortie, le cas de test original et le score. La prochaine etape est de remplacer le score en dur par un vrai systeme d’evaluation.