La mise en cache des prompts

Le prompt caching accelere les reponses de Claude et reduit les couts en reutilisant le travail de calcul des requetes precedentes.

Traitement normal (sans cache)

A chaque requete, Claude effectue un preprocessing couteux : tokenisation, creation d’embeddings, ajout de contexte. Apres l’envoi de la reponse, tout ce travail est jete.

Le probleme du contenu repete

Dans une conversation, la requete de suivi inclut le message original + la reponse de Claude + le nouveau message. Claude doit retraiter le message original qu’il vient d’analyser. Un gaspillage.

Comment fonctionne le cache

Requete initiale : Claude traite le message et sauvegarde le travail en cache
Requetes suivantes : quand Claude retrouve le meme contenu, il lit le cache au lieu de tout recalculer

Avantages et limites

Avantages :

Reponses plus rapides
Couts reduits
Optimisation automatique

Limites :

Le cache ne vit que 5 minutes
Correspondance exacte requise
Particulierement utile pour les applications conversationnelles et l’analyse de documents