Nettoyage et transformation de données — ChatGPT pour l’Analyse de Données

Des données brutes aux données exploitables

Les données réelles sont rarement propres. Doublons, valeurs manquantes, formats incohérents, colonnes inutiles — avant de pouvoir analyser quoi que ce soit, il faut nettoyer. ChatGPT transforme cette corvée en conversation : vous décrivez le problème, il génère et exécute le code de nettoyage.

Diagnostiquer la qualité de vos données

Avant de nettoyer, il faut savoir ce qui ne va pas. Commencez chaque session par un audit :

Analyse la qualité de ce fichier : valeurs manquantes par colonne,
doublons, types de données détectés, et valeurs aberrantes éventuelles.

ChatGPT produit un rapport complet avec :

Le pourcentage de valeurs manquantes par colonne
Le nombre de lignes dupliquées
Les colonnes avec des types incohérents (mélange texte/nombre)
Les valeurs extrêmes qui pourraient être des erreurs de saisie

80%

du temps d'analyse passé au nettoyage (traditionnel)

5 min

avec ChatGPT pour le même résultat

100%

du code Python visible et vérifiable

ligne de code à écrire vous-même

Gérer les valeurs manquantes

Les valeurs manquantes sont le problème le plus fréquent. Plusieurs stratégies existent selon le contexte :

Supprimer les lignes incomplètes

Supprime toutes les lignes où la colonne "email" est vide.

Adapté quand les données manquantes sont peu nombreuses et non critiques.

Remplir avec une valeur par défaut

Remplace les valeurs manquantes de "pays" par "France"
et celles de "montant" par 0.

Adapté quand vous connaissez la valeur logique par défaut.

Interpoler ou calculer

Pour les valeurs manquantes de "ca_mensuel", utilise la moyenne
des mois précédent et suivant du même client.

Adapté pour les séries temporelles ou les données continues.

Supprimer les doublons

Les doublons faussent toutes les statistiques. Demandez :

Identifie et supprime les doublons basés sur les colonnes
"nom_client" et "date_commande". Garde la première occurrence.

ChatGPT vous montre les lignes supprimées avant de les retirer, ce qui vous permet de vérifier qu’il ne s’agit pas de faux doublons.

Standardiser les formats

Dates

Les dates sont souvent chaotiques : « 15/03/2026 », « 2026-03-15 », « 15 mars 2026 ». Uniformisez :

Convertis toutes les dates de la colonne "date_achat"
au format AAAA-MM-JJ et signale celles qui ne peuvent pas être converties.

Texte

Majuscules/minuscules incohérentes : « Paris », « PARIS », « paris »
Espaces en trop : « Lyon » vs « Lyon »
Variantes d’écriture : « Saint-Étienne » vs « St Etienne »

Normalise la colonne "ville" : première lettre en majuscule,
supprime les espaces en trop, et regroupe les variantes
(Saint/St, tirets manquants).

Nombres

La colonne "prix" contient des valeurs comme "1 250,50 €".
Convertis-la en nombre décimal (1250.50) et supprime le symbole euro.

Créer de nouvelles colonnes

La transformation inclut aussi l’enrichissement :

Crée une colonne "trimestre" à partir de "date_commande"
et une colonne "tranche_ca" qui catégorise le CA en :
"Petit" (< 1000), "Moyen" (1000-5000), "Grand" (> 5000).

ChatGPT génère le code pandas avec pd.cut() ou des conditions logiques, et l’exécute directement.

Exporter les données nettoyées

Une fois le nettoyage terminé, récupérez le fichier propre :

Exporte le DataFrame nettoyé en CSV (UTF-8, séparateur point-virgule)
pour que je puisse le télécharger.

ChatGPT génère un lien de téléchargement. Vous repartez avec un fichier propre, prêt pour l’analyse.

Points clés à retenir

Commencez toujours par un audit qualité avant d’analyser
ChatGPT gère valeurs manquantes, doublons et formats incohérents en quelques messages
Vérifiez systématiquement les résultats intermédiaires — demandez un aperçu après chaque opération
Exportez le fichier nettoyé pour le réutiliser dans d’autres outils si nécessaire
Le code Python est visible : vous pouvez le copier et le réutiliser dans vos propres scripts