Aller au contenu principal

Statistiques descriptives automatiques

Comprendre vos données en un instant

Les statistiques descriptives sont le socle de toute analyse. Moyenne, médiane, écart-type, distribution — ces indicateurs vous donnent une vision claire de ce que contiennent vos données avant de creuser plus loin. Avec ChatGPT, vous obtenez ces statistiques en une seule phrase.

Le résumé statistique express

La commande la plus simple pour démarrer :

Donne-moi un résumé statistique complet de ce jeu de données.

ChatGPT exécute df.describe() et enrichit le résultat avec des commentaires. Vous obtenez pour chaque colonne numérique :

  • count — nombre de valeurs non vides
  • mean — moyenne
  • std — écart-type (mesure de dispersion)
  • min / max — valeurs extrêmes
  • 25% / 50% / 75% — quartiles (médiane = 50%)

Interpréter les résultats

ChatGPT ne se contente pas d’afficher des chiffres. Demandez-lui d’interpréter :

Interprète ces statistiques : quelles colonnes ont une forte dispersion ?
Y a-t-il des valeurs aberrantes ? Quelles distributions semblent asymétriques ?

Statistiques par catégorie

Les moyennes globales masquent souvent des disparités. Segmentez :

Calcule la moyenne, la médiane et l'écart-type du montant des commandes
pour chaque catégorie de produit.
Indicateur Ce qu'il mesure Quand l'utiliser
Moyenne Valeur centrale Données symétriques, sans valeurs extrêmes
Médiane Valeur du milieu Données asymétriques ou avec outliers
Écart-type Dispersion autour de la moyenne Évaluer la variabilité des performances
Mode Valeur la plus fréquente Données catégorielles ou discrètes
Corrélation Relation linéaire entre deux variables Identifier les facteurs liés entre eux

Distributions et fréquences

Pour les données numériques

Montre la distribution de la colonne "montant_commande"
avec un histogramme et indique si elle suit une loi normale.

ChatGPT génère un histogramme et peut appliquer un test de normalité (Shapiro-Wilk) pour vérifier.

Pour les données catégorielles

Quelle est la répartition des clients par secteur d'activité ?
Affiche les fréquences absolues et relatives.

Vous obtenez un tableau avec le nombre d’occurrences et le pourcentage de chaque catégorie.

Corrélations entre variables

Les corrélations révèlent les relations entre vos colonnes numériques :

Calcule la matrice de corrélation et identifie les paires
de variables les plus corrélées (positivement et négativement).

ChatGPT génère la matrice et met en évidence les corrélations significatives. Il peut aussi expliquer ce que chaque corrélation signifie dans votre contexte métier.

Attention aux pièges

  • Corrélation ne signifie pas causalité — deux variables peuvent évoluer ensemble sans que l’une cause l’autre
  • Les outliers faussent les corrélations — demandez le calcul avec et sans valeurs extrêmes
  • Les variables catégorielles ne sont pas incluses par défaut — demandez un encodage si nécessaire

Détection des valeurs aberrantes

Les outliers peuvent être des erreurs ou des cas intéressants :

Identifie les valeurs aberrantes dans "montant_commande"
en utilisant la méthode IQR. Liste les lignes concernées
et indique si elles semblent être des erreurs ou des cas légitimes.

ChatGPT calcule les bornes IQR (Q1 - 1.5 * IQR et Q3 + 1.5 * IQR) et liste les valeurs hors limites avec leur contexte.

Automatiser le rapport descriptif

Pour un résumé complet en une seule requête :

Génère un rapport statistique descriptif complet de ce fichier.
Inclus : vue d'ensemble, statistiques par colonne numérique,
répartition des catégorielles, corrélations principales,
valeurs aberrantes détectées et recommandations pour l'analyse suivante.

Ce type de prompt produit un document structuré que vous pouvez directement partager avec votre équipe.

Points clés à retenir

  • Le résumé statistique est votre première étape après le nettoyage
  • Segmentez toujours par catégorie — les moyennes globales cachent des disparités
  • La médiane est souvent plus fiable que la moyenne pour les données réelles
  • Les corrélations révèlent des pistes d’analyse, pas des certitudes
  • Demandez à ChatGPT d’interpréter les chiffres, pas seulement de les calculer