Acceder a l'API
Quand on developpe une application alimentee par Claude, il est essentiel de comprendre le cycle complet d’une requete API. Voici ce qui se passe quand un utilisateur envoie un message a votre application.
Le flux complet d’une requete
Le parcours d’un message utilisateur jusqu’a la reponse de Claude suit cinq etapes distinctes : requete vers votre serveur, requete vers Vertex AI, traitement par le modele, reponse vers le serveur, puis reponse vers le client.
Pourquoi un serveur intermediaire est indispensable
Ne faites jamais de requetes API directement depuis le code cote client. Les requetes API necessitent des identifiants secrets qui doivent rester proteges. Si vous les exposez dans le code client, ils deviennent visibles par n’importe qui. Votre serveur agit comme un intermediaire securise entre votre application et Vertex AI.
Construire la requete API
Votre serveur communique avec Vertex AI via les SDK Anthropic ou les SDK officiels Google Vertex. Anthropic fournit des SDK pour Python, TypeScript, Go et Ruby.
Chaque requete doit inclure ces champs obligatoires :
- Cle API : identifie votre requete aupres d’Anthropic
- Model : nom du modele specifique a utiliser
- Messages : liste contenant le texte de l’utilisateur
- Max Tokens : limite le nombre de tokens que le modele peut generer
Le processus de generation de texte
Une fois la requete recue, Claude la traite en quatre etapes :
Tokenisation
Claude decoupe le texte en fragments appeles tokens. Ce peut etre des mots entiers, des parties de mots, des espaces ou des symboles.
Embedding
Chaque token est converti en un embedding : une longue liste de nombres representant toutes les significations possibles du mot.
Contextualisation
Comme un mot peut avoir plusieurs sens, Claude utilise le contexte pour determiner la bonne interpretation. Le mot “quantum” peut designer la physique, l’informatique, ou simplement “tres petit”. L’embedding est ajuste en fonction des mots voisins.
Generation
Les embeddings contextualises passent par une couche de sortie qui produit des probabilites pour chaque mot suivant possible. Claude ne choisit pas toujours le mot le plus probable : il utilise un melange de probabilite et d’aleatoire pour des reponses plus naturelles.
Conditions d’arret
Apres chaque token genere, Claude verifie :
- Max tokens atteint : la limite specifiee est-elle depassee ?
- Fin naturelle : un token de fin de sequence a-t-il ete genere ?
- Sequence d’arret : une phrase d’arret predefinie a-t-elle ete rencontree ?
La reponse
La reponse de Vertex AI contient :
- Message : le texte genere
- Usage : nombre de tokens en entree et en sortie
- Stop Reason : raison de l’arret de la generation
Votre serveur transmet ensuite le texte genere a votre application cliente.