La mise en cache des prompts
Le prompt caching accelere les reponses de Claude et reduit les couts en reutilisant le travail de calcul des requetes precedentes.
Traitement normal (sans cache)
A chaque requete, Claude effectue un preprocessing couteux : tokenisation, creation d’embeddings, ajout de contexte. Apres l’envoi de la reponse, tout ce travail est jete.
Le probleme du contenu repete
Dans une conversation, la requete de suivi inclut le message original + la reponse de Claude + le nouveau message. Claude doit retraiter le message original qu’il vient d’analyser. Un gaspillage.
Comment fonctionne le cache
- Requete initiale : Claude traite le message et sauvegarde le travail en cache
- Requetes suivantes : quand Claude retrouve le meme contenu, il lit le cache au lieu de tout recalculer
Avantages et limites
Avantages :
- Reponses plus rapides
- Couts reduits
- Optimisation automatique
Limites :
- Le cache ne vit que 5 minutes
- Correspondance exacte requise
- Particulierement utile pour les applications conversationnelles et l’analyse de documents