Prompt caching
Le prompt caching est une fonctionnalite qui accelere les reponses de Claude et reduit les couts en reutilisant le travail computationnel des requetes precedentes.
Comment Claude traite normalement les requetes
Avant de generer une reponse, Claude effectue un travail important sur votre message d’entree :
- Tokeniser le prompt
- Creer des embeddings pour chaque token
- Ajouter du contexte base sur le texte environnant
- Generer le texte de sortie
Tout ce pretraitement se fait avant que Claude ne genere la moindre reponse. Et une fois la reponse envoyee, Claude jette tout ce travail computationnel.
Le probleme
Dans une conversation, si vous faites une requete de suivi qui inclut le meme message precedent, Claude doit refaire tout le travail qu’il vient de jeter. C’est une inefficacite significative.
Comment le prompt caching resout ce probleme
Au lieu de jeter le travail de pretraitement, Claude le stocke dans un cache. Ce cache agit comme une table de correspondance entre des messages d’entree specifiques et leurs resultats computationnels.
Lors d’une requete de suivi contenant le meme contenu, Claude consulte son cache et reutilise le travail precedent au lieu de tout recommencer.
Avantages et limites
- Les requetes utilisant du contenu cache sont moins cheres et plus rapides
- La requete initiale ecrit dans le cache
- Les requetes de suivi lisent depuis le cache
- Le cache vit 5 minutes
- Utile uniquement si vous envoyez le meme contenu de facon repetee (ce qui est extremement frequent en pratique)
Le cache est particulierement precieux car de nombreuses applications IA envoient effectivement le meme contenu de maniere repetee : prompts systeme, historique de conversation, grands documents en cours d’analyse.