Aller au contenu principal

La mise en cache des prompts

Le prompt caching accelere les reponses de Claude et reduit les couts en reutilisant le travail de calcul des requetes precedentes.

Traitement normal (sans cache)

A chaque requete, Claude effectue un preprocessing couteux : tokenisation, creation d’embeddings, ajout de contexte. Apres l’envoi de la reponse, tout ce travail est jete.

Le probleme du contenu repete

Dans une conversation, la requete de suivi inclut le message original + la reponse de Claude + le nouveau message. Claude doit retraiter le message original qu’il vient d’analyser. Un gaspillage.

Comment fonctionne le cache

  1. Requete initiale : Claude traite le message et sauvegarde le travail en cache
  2. Requetes suivantes : quand Claude retrouve le meme contenu, il lit le cache au lieu de tout recalculer

Avantages et limites

Avantages :

  • Reponses plus rapides
  • Couts reduits
  • Optimisation automatique

Limites :

  • Le cache ne vit que 5 minutes
  • Correspondance exacte requise
  • Particulierement utile pour les applications conversationnelles et l’analyse de documents