Generer des jeux de donnees de test

Pour evaluer un prompt, il faut des donnees de test. On peut les creer manuellement ou les generer automatiquement avec Claude.

Generer les donnees avec Claude

Pour un prompt qui aide a ecrire du code AWS (Python, JSON, regex), on peut demander a Claude de creer des cas de test :

def generate_dataset():
    prompt = """
    Genere un jeu de donnees d'evaluation. Le jeu sera utilise pour
    evaluer des prompts qui generent du Python, du JSON ou des Regex
    pour des taches liees a AWS. Genere un tableau d'objets JSON,
    chacun representant une tache.

    Exemple :
    ```json
    [
        {"task": "Description de la tache"},
        ...
    ]
    ```

    * Concentre-toi sur des taches resolubles par une seule fonction Python,
      un seul objet JSON ou une seule regex
    * Evite les taches necessitant beaucoup de code

    Genere 3 objets.
    """

Extraction du JSON propre

On utilise la technique du pre-remplissage avec sequence d’arret :

    messages = []
    add_user_message(messages, prompt)
    add_assistant_message(messages, "```json")
    text = chat(messages, stop_sequences=["```"])
    return json.loads(text)

Sauvegarder le jeu de donnees

dataset = generate_dataset()

with open('dataset.json', 'w') as f:
    json.dump(dataset, f, indent=2)

Exemples de cas generes :

Creer une fonction Python pour extraire la region AWS d’un ARN
Ecrire une configuration JSON pour une Lambda AWS
Developper une regex pour valider un nom de bucket S3