Extraire et transformer des données
Extraire et transformer des données
Au-delà de la simple lecture de fichiers, ChatGPT peut extraire des données structurées depuis des documents non structurés, les reformater, les croiser et les exporter dans le format de votre choix. Cette capacité de transformation fait de ChatGPT un outil de productivité redoutable pour le traitement de données.
Extraction structurée depuis des documents
L’extraction structurée consiste à prendre de l’information dispersée dans un document et à l’organiser dans un format exploitable.
Depuis un PDF de factures : Envoyez plusieurs factures et demandez : « Extrais de chaque facture : le numéro de facture, la date, le fournisseur, le montant HT, la TVA et le montant TTC. Présente le tout dans un tableau. »
Depuis un rapport annuel : « Extrais tous les chiffres financiers mentionnés dans ce rapport : chiffre d’affaires, bénéfice net, marge, effectifs. Organise-les par année dans un tableau comparatif. »
Depuis un email ou un document textuel : « Ce document contient 15 contacts mentionnés dans le texte. Extrais les noms, entreprises et fonctions de chaque personne dans un tableau structuré. »
ChatGPT transforme un flux de texte en données tabulaires exploitables — c’est l’une de ses capacités les plus immédiatement rentables en termes de temps gagné.
Transformer des formats de données
CSV vers tableau formaté : Envoyez un fichier CSV brut et demandez : « Crée un tableau lisible avec des en-têtes clairs. Traduis les noms de colonnes de l’anglais au français. »
Tableau vers graphique : « À partir de ces données, génère un graphique en barres montrant la répartition des ventes par région. »
Données vers présentation : « Transforme ces données trimestrielles en 3 slides de synthèse : vue d’ensemble, top performers, et points d’alerte. »
JSON vers tableau : « Ce fichier JSON contient des données produit. Convertis-le en tableau CSV avec les colonnes : nom, prix, catégorie, stock. »
Croiser des données de sources différentes
Envoyez deux fichiers dans la même conversation et demandez à ChatGPT de les croiser :
Fichier 1 : Liste de clients avec leurs achats (Excel) Fichier 2 : Résultats de satisfaction client (CSV)
Prompt : « Croise ces deux fichiers sur le nom du client. Pour chaque client, montre le montant total d’achat et le score de satisfaction. Trie par score de satisfaction décroissant. Identifie les clients à fort potentiel (achats élevés + satisfaction élevée) et les clients à risque (achats élevés + satisfaction basse). »
Ce type de croisement, qui nécessiterait normalement des formules Excel complexes ou un script Python, se fait en une seule demande conversationnelle.
Nettoyage et normalisation
Les données du monde réel sont rarement propres. ChatGPT excelle dans le nettoyage :
Normalisation de formats : « Dans cette colonne de numéros de téléphone, certains sont au format 06.12.34.56.78, d’autres au format +33612345678, d’autres au format 06 12 34 56 78. Normalise-les tous au format international +33 6 12 34 56 78. »
Détection d’anomalies : « Analyse cette colonne de dates. Identifie les dates invalides, les formats incohérents et les valeurs aberrantes. »
Déduplication : « Ce fichier contient des doublons probables (mêmes noms avec des orthographes légèrement différentes). Identifie-les et propose une version consolidée. »
Catégorisation automatique : « Voici 200 descriptions de dépenses. Catégorise chacune dans l’une de ces catégories : Transport, Restauration, Hébergement, Fournitures, Services, Autre. »
Exporter les résultats
Après le traitement, vous pouvez demander à ChatGPT d’exporter les données :
- « Génère un fichier CSV téléchargeable avec ces résultats »
- « Crée un fichier Excel avec deux onglets : les données brutes et le résumé »
- « Formate ces données en JSON pour intégration dans notre API »
ChatGPT génère le fichier et vous propose un lien de téléchargement directement dans la conversation.
Automatiser les traitements répétitifs
Si vous traitez régulièrement le même type de fichier, créez un prompt réutilisable :
« Je vais t’envoyer un relevé bancaire PDF chaque mois. Pour chaque relevé, je veux que tu : (1) extraies toutes les transactions, (2) les catégorises en 6 catégories (Logement, Alimentation, Transport, Loisirs, Santé, Autre), (3) calcules le total par catégorie, (4) compares avec le mois précédent si disponible, (5) exportes le résultat en CSV. »
Sauvegardez ce prompt et réutilisez-le chaque mois pour un traitement cohérent et rapide.
Mise en pratique
Prenez un fichier de données que vous utilisez dans votre travail (export CRM, feuille de temps, liste de contacts, relevé financier). Envoyez-le à ChatGPT avec ce prompt : « Analyse ce fichier. Identifie les problèmes de qualité des données (doublons, valeurs manquantes, formats incohérents). Propose un plan de nettoyage. Puis applique le nettoyage et génère un fichier corrigé téléchargeable. »
Erreurs courantes
- Envoyer des fichiers trop volumineux d’un coup — Pour les fichiers de plus de 10 000 lignes, demandez d’abord un échantillon d’analyse avant le traitement complet
- Ne pas vérifier les résultats du croisement — Les erreurs de correspondance (homonymes, fautes de frappe) peuvent fausser les résultats
- Oublier de spécifier le format de sortie — Sans instruction, ChatGPT affichera les résultats en texte dans la conversation plutôt que de générer un fichier
- Traiter des données personnelles sensibles — Données de santé, numéros de sécurité sociale, informations bancaires : évaluez les risques avant l’envoi
Points clés à retenir
- ChatGPT peut extraire des données structurées depuis des documents non structurés en une seule demande
- Le croisement de fichiers et la normalisation de données se font de manière conversationnelle
- Demandez explicitement un export (CSV, Excel, JSON) pour récupérer les données traitées
- Créez des prompts réutilisables pour les traitements mensuels ou récurrents
- Vérifiez toujours les résultats, surtout pour les croisements et les catégorisations automatiques