Acceder a l'API — Claude sur Google Vertex AI

Quand on developpe une application alimentee par Claude, il est essentiel de comprendre le cycle complet d’une requete API. Voici ce qui se passe quand un utilisateur envoie un message a votre application.

Le flux complet d’une requete

Le parcours d’un message utilisateur jusqu’a la reponse de Claude suit cinq etapes distinctes : requete vers votre serveur, requete vers Vertex AI, traitement par le modele, reponse vers le serveur, puis reponse vers le client.

Pourquoi un serveur intermediaire est indispensable

Ne faites jamais de requetes API directement depuis le code cote client. Les requetes API necessitent des identifiants secrets qui doivent rester proteges. Si vous les exposez dans le code client, ils deviennent visibles par n’importe qui. Votre serveur agit comme un intermediaire securise entre votre application et Vertex AI.

Construire la requete API

Votre serveur communique avec Vertex AI via les SDK Anthropic ou les SDK officiels Google Vertex. Anthropic fournit des SDK pour Python, TypeScript, Go et Ruby.

Chaque requete doit inclure ces champs obligatoires :

Cle API : identifie votre requete aupres d’Anthropic
Model : nom du modele specifique a utiliser
Messages : liste contenant le texte de l’utilisateur
Max Tokens : limite le nombre de tokens que le modele peut generer

Le processus de generation de texte

Une fois la requete recue, Claude la traite en quatre etapes :

Tokenisation

Claude decoupe le texte en fragments appeles tokens. Ce peut etre des mots entiers, des parties de mots, des espaces ou des symboles.

Embedding

Chaque token est converti en un embedding : une longue liste de nombres representant toutes les significations possibles du mot.

Contextualisation

Comme un mot peut avoir plusieurs sens, Claude utilise le contexte pour determiner la bonne interpretation. Le mot “quantum” peut designer la physique, l’informatique, ou simplement “tres petit”. L’embedding est ajuste en fonction des mots voisins.

Generation

Les embeddings contextualises passent par une couche de sortie qui produit des probabilites pour chaque mot suivant possible. Claude ne choisit pas toujours le mot le plus probable : il utilise un melange de probabilite et d’aleatoire pour des reponses plus naturelles.

Conditions d’arret

Apres chaque token genere, Claude verifie :

Max tokens atteint : la limite specifiee est-elle depassee ?
Fin naturelle : un token de fin de sequence a-t-il ete genere ?
Sequence d’arret : une phrase d’arret predefinie a-t-elle ete rencontree ?

La reponse

La reponse de Vertex AI contient :

Message : le texte genere
Usage : nombre de tokens en entree et en sortie
Stop Reason : raison de l’arret de la generation

Votre serveur transmet ensuite le texte genere a votre application cliente.