Prompt caching — Claude sur Amazon Bedrock

Prompt caching

Le prompt caching est une fonctionnalite qui accelere les reponses de Claude et reduit les couts en reutilisant le travail computationnel des requetes precedentes.

Comment Claude traite normalement les requetes

Avant de generer une reponse, Claude effectue un travail important sur votre message d’entree :

Tokeniser le prompt
Creer des embeddings pour chaque token
Ajouter du contexte base sur le texte environnant
Generer le texte de sortie

Tout ce pretraitement se fait avant que Claude ne genere la moindre reponse. Et une fois la reponse envoyee, Claude jette tout ce travail computationnel.

Le probleme

Dans une conversation, si vous faites une requete de suivi qui inclut le meme message precedent, Claude doit refaire tout le travail qu’il vient de jeter. C’est une inefficacite significative.

Comment le prompt caching resout ce probleme

Au lieu de jeter le travail de pretraitement, Claude le stocke dans un cache. Ce cache agit comme une table de correspondance entre des messages d’entree specifiques et leurs resultats computationnels.

Lors d’une requete de suivi contenant le meme contenu, Claude consulte son cache et reutilise le travail precedent au lieu de tout recommencer.

Avantages et limites

Les requetes utilisant du contenu cache sont moins cheres et plus rapides
La requete initiale ecrit dans le cache
Les requetes de suivi lisent depuis le cache
Le cache vit 5 minutes
Utile uniquement si vous envoyez le meme contenu de facon repetee (ce qui est extremement frequent en pratique)

Le cache est particulierement precieux car de nombreuses applications IA envoient effectivement le meme contenu de maniere repetee : prompts systeme, historique de conversation, grands documents en cours d’analyse.