Aller au contenu principal

Nettoyage et transformation de données

Des données brutes aux données exploitables

Les données réelles sont rarement propres. Doublons, valeurs manquantes, formats incohérents, colonnes inutiles — avant de pouvoir analyser quoi que ce soit, il faut nettoyer. ChatGPT transforme cette corvée en conversation : vous décrivez le problème, il génère et exécute le code de nettoyage.

Diagnostiquer la qualité de vos données

Avant de nettoyer, il faut savoir ce qui ne va pas. Commencez chaque session par un audit :

Analyse la qualité de ce fichier : valeurs manquantes par colonne,
doublons, types de données détectés, et valeurs aberrantes éventuelles.

ChatGPT produit un rapport complet avec :

  • Le pourcentage de valeurs manquantes par colonne
  • Le nombre de lignes dupliquées
  • Les colonnes avec des types incohérents (mélange texte/nombre)
  • Les valeurs extrêmes qui pourraient être des erreurs de saisie
80%
du temps d'analyse passé au nettoyage (traditionnel)
5 min
avec ChatGPT pour le même résultat
100%
du code Python visible et vérifiable
0
ligne de code à écrire vous-même

Gérer les valeurs manquantes

Les valeurs manquantes sont le problème le plus fréquent. Plusieurs stratégies existent selon le contexte :

Supprimer les lignes incomplètes

Supprime toutes les lignes où la colonne "email" est vide.

Adapté quand les données manquantes sont peu nombreuses et non critiques.

Remplir avec une valeur par défaut

Remplace les valeurs manquantes de "pays" par "France"
et celles de "montant" par 0.

Adapté quand vous connaissez la valeur logique par défaut.

Interpoler ou calculer

Pour les valeurs manquantes de "ca_mensuel", utilise la moyenne
des mois précédent et suivant du même client.

Adapté pour les séries temporelles ou les données continues.

Supprimer les doublons

Les doublons faussent toutes les statistiques. Demandez :

Identifie et supprime les doublons basés sur les colonnes
"nom_client" et "date_commande". Garde la première occurrence.

ChatGPT vous montre les lignes supprimées avant de les retirer, ce qui vous permet de vérifier qu’il ne s’agit pas de faux doublons.

Standardiser les formats

Dates

Les dates sont souvent chaotiques : « 15/03/2026 », « 2026-03-15 », « 15 mars 2026 ». Uniformisez :

Convertis toutes les dates de la colonne "date_achat"
au format AAAA-MM-JJ et signale celles qui ne peuvent pas être converties.

Texte

  • Majuscules/minuscules incohérentes : « Paris », « PARIS », « paris »
  • Espaces en trop : « Lyon » vs « Lyon »
  • Variantes d’écriture : « Saint-Étienne » vs « St Etienne »
Normalise la colonne "ville" : première lettre en majuscule,
supprime les espaces en trop, et regroupe les variantes
(Saint/St, tirets manquants).

Nombres

La colonne "prix" contient des valeurs comme "1 250,50 €".
Convertis-la en nombre décimal (1250.50) et supprime le symbole euro.

Créer de nouvelles colonnes

La transformation inclut aussi l’enrichissement :

Crée une colonne "trimestre" à partir de "date_commande"
et une colonne "tranche_ca" qui catégorise le CA en :
"Petit" (< 1000), "Moyen" (1000-5000), "Grand" (> 5000).

ChatGPT génère le code pandas avec pd.cut() ou des conditions logiques, et l’exécute directement.

Exporter les données nettoyées

Une fois le nettoyage terminé, récupérez le fichier propre :

Exporte le DataFrame nettoyé en CSV (UTF-8, séparateur point-virgule)
pour que je puisse le télécharger.

ChatGPT génère un lien de téléchargement. Vous repartez avec un fichier propre, prêt pour l’analyse.

Points clés à retenir

  • Commencez toujours par un audit qualité avant d’analyser
  • ChatGPT gère valeurs manquantes, doublons et formats incohérents en quelques messages
  • Vérifiez systématiquement les résultats intermédiaires — demandez un aperçu après chaque opération
  • Exportez le fichier nettoyé pour le réutiliser dans d’autres outils si nécessaire
  • Le code Python est visible : vous pouvez le copier et le réutiliser dans vos propres scripts