Nettoyage et transformation de données
Des données brutes aux données exploitables
Les données réelles sont rarement propres. Doublons, valeurs manquantes, formats incohérents, colonnes inutiles — avant de pouvoir analyser quoi que ce soit, il faut nettoyer. ChatGPT transforme cette corvée en conversation : vous décrivez le problème, il génère et exécute le code de nettoyage.
Diagnostiquer la qualité de vos données
Avant de nettoyer, il faut savoir ce qui ne va pas. Commencez chaque session par un audit :
Analyse la qualité de ce fichier : valeurs manquantes par colonne,
doublons, types de données détectés, et valeurs aberrantes éventuelles.
ChatGPT produit un rapport complet avec :
- Le pourcentage de valeurs manquantes par colonne
- Le nombre de lignes dupliquées
- Les colonnes avec des types incohérents (mélange texte/nombre)
- Les valeurs extrêmes qui pourraient être des erreurs de saisie
Gérer les valeurs manquantes
Les valeurs manquantes sont le problème le plus fréquent. Plusieurs stratégies existent selon le contexte :
Supprimer les lignes incomplètes
Supprime toutes les lignes où la colonne "email" est vide.
Adapté quand les données manquantes sont peu nombreuses et non critiques.
Remplir avec une valeur par défaut
Remplace les valeurs manquantes de "pays" par "France"
et celles de "montant" par 0.
Adapté quand vous connaissez la valeur logique par défaut.
Interpoler ou calculer
Pour les valeurs manquantes de "ca_mensuel", utilise la moyenne
des mois précédent et suivant du même client.
Adapté pour les séries temporelles ou les données continues.
Supprimer les doublons
Les doublons faussent toutes les statistiques. Demandez :
Identifie et supprime les doublons basés sur les colonnes
"nom_client" et "date_commande". Garde la première occurrence.
ChatGPT vous montre les lignes supprimées avant de les retirer, ce qui vous permet de vérifier qu’il ne s’agit pas de faux doublons.
Standardiser les formats
Dates
Les dates sont souvent chaotiques : « 15/03/2026 », « 2026-03-15 », « 15 mars 2026 ». Uniformisez :
Convertis toutes les dates de la colonne "date_achat"
au format AAAA-MM-JJ et signale celles qui ne peuvent pas être converties.
Texte
- Majuscules/minuscules incohérentes : « Paris », « PARIS », « paris »
- Espaces en trop : « Lyon » vs « Lyon »
- Variantes d’écriture : « Saint-Étienne » vs « St Etienne »
Normalise la colonne "ville" : première lettre en majuscule,
supprime les espaces en trop, et regroupe les variantes
(Saint/St, tirets manquants).
Nombres
La colonne "prix" contient des valeurs comme "1 250,50 €".
Convertis-la en nombre décimal (1250.50) et supprime le symbole euro.
Créer de nouvelles colonnes
La transformation inclut aussi l’enrichissement :
Crée une colonne "trimestre" à partir de "date_commande"
et une colonne "tranche_ca" qui catégorise le CA en :
"Petit" (< 1000), "Moyen" (1000-5000), "Grand" (> 5000).
ChatGPT génère le code pandas avec pd.cut() ou des conditions logiques, et l’exécute directement.
Exporter les données nettoyées
Une fois le nettoyage terminé, récupérez le fichier propre :
Exporte le DataFrame nettoyé en CSV (UTF-8, séparateur point-virgule)
pour que je puisse le télécharger.
ChatGPT génère un lien de téléchargement. Vous repartez avec un fichier propre, prêt pour l’analyse.
Points clés à retenir
- Commencez toujours par un audit qualité avant d’analyser
- ChatGPT gère valeurs manquantes, doublons et formats incohérents en quelques messages
- Vérifiez systématiquement les résultats intermédiaires — demandez un aperçu après chaque opération
- Exportez le fichier nettoyé pour le réutiliser dans d’autres outils si nécessaire
- Le code Python est visible : vous pouvez le copier et le réutiliser dans vos propres scripts