Apprendre Exploration Basique de DataFrame

Glissez pour afficher le menu

Définition

L'exploration d'un DataFrame consiste à inspecter la structure, les types de données et le contenu d'un DataFrame. Les commandes telles que printSchema() et display() sont les principaux outils utilisés pour valider que les données ont été correctement chargées avant de commencer une analyse.

Une fois que les données ont été chargées dans un DataFrame, il ne faut pas supposer qu'elles sont parfaites. Il est nécessaire de les inspecter pour comprendre leur nature. Dans ce chapitre, deux commandes Python essentielles seront utilisées pour « regarder sous le capot » du DataFrame sales_records.

Inspection de la structure : printSchema()

La première étape pour un professionnel des données avec un nouveau DataFrame est de vérifier le schéma. Le schéma est le plan de vos données : il indique le nom de chaque colonne et le type de données qu'elle contient (Integer, String, Double, etc.).

Dans une nouvelle cellule, exécuter :

df.printSchema()

La sortie sera une liste sous forme d’arborescence. C’est ici que vous vérifiez que "Total_Revenue" est de type numérique (comme double) et non simplement un texte. Si une colonne que vous attendiez comme étant un nombre apparaît comme un string, cela signifie que vous devez corriger les types de données avant d’effectuer des calculs.

Inspection du contenu : display()

Alors que printSchema() affiche la structure, display() montre les données réelles. Comme évoqué dans la section 3, display() est une fonction puissante spécifique à Databricks.

Exécuter :

display(df)

Cela affiche les 10 000 premières lignes de votre DataFrame dans une grille interactive. Possibilité d’identifier des données « sales », telles que des valeurs manquantes (affichées comme null) ou un formatage incohérent dans les colonnes "Region" ou "Item_Type".

Statistiques rapides : describe() et summary()

Pour visualiser les statistiques de vos colonnes sans écrire de requêtes complexes, utilisation de la commande describe() :

display(df.describe())

Cela renvoie un tableau affichant le nombre, la moyenne, l'écart type, le minimum et le maximum pour chaque colonne numérique. Il s'agit du moyen le plus rapide de vérifier la présence de valeurs aberrantes — par exemple, si votre prix "Min" est un nombre négatif, cela indique une erreur dans vos données sources.

Comptage des lignes : count()

Pour connaître la taille de votre jeu de données, utilisez la méthode count() :

print(df.count())

Cela renvoie un entier unique représentant le nombre total de lignes. Utile pour vérifier qu'aucune donnée n'a été perdue lors du processus de chargement.

Affichage des noms de colonnes

Enfin, si vous avez simplement besoin d'une liste rapide des noms de colonnes à copier-coller dans une autre fonction, utilisez :

print(df.columns)

Cela renvoie une simple liste Python de tous les en-têtes, ce qui est très utile lorsque votre DataFrame contient des dizaines de colonnes et que vous ne vous souvenez plus de l’orthographe exacte de l’une d’elles.

1. Quelle commande devez-vous utiliser pour voir le « plan » de votre DataFrame, y compris tous les noms de colonnes et les types de données ?

2. Quel est le but de l'exécution de display(df.describe()) ?

Tout était clair ?

Merci pour vos commentaires !

Section 4. Chapitre 3

Demandez à l'IA

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Section 4. Chapitre 3