Lære Grundlæggende DataFrame-Undersøgelse

Stryg for at vise menuen

Definition

DataFrame-udforskning er processen med at inspicere strukturen, datatyperne og indholdet af en DataFrame. Kommandoer som printSchema() og display() er de primære værktøjer, der bruges til at validere, at data er indlæst korrekt, før analysen påbegyndes.

Når du har indlæst dine data i en DataFrame, kan du ikke blot antage, at de er perfekte. Du skal inspicere dem for at forstå, hvad du arbejder med. I dette kapitel vil du bruge to essentielle Python-kommandoer til at "kigge under motorhjelmen" på vores sales_records DataFrame.

Inspektion af struktur: printSchema()

Det første en datamedarbejder gør med en ny DataFrame, er at tjekke skemaet. Skemaet er din datas blueprint—det fortæller dig navnet på hver kolonne og typen af data, den indeholder (Integer, String, Double osv.).

Kør i en ny celle:

df.printSchema()

Outputtet vil være en træstruktur-liste. Her kan du kontrollere, at "Total_Revenue" er af en numerisk type (som double) og ikke blot et tekstfelt. Hvis en kolonne, du forventede skulle være et tal, er angivet som en string, ved du, at du skal rette datatyperne, før du udfører beregninger.

Inspektion af indholdet: display()

Hvor printSchema() viser strukturen, viser display() de faktiske data. Som nævnt i sektion 3 er display() en kraftfuld, Databricks-specifik funktion.

Kør:

display(df)

Dette viser de første 10.000 rækker af din DataFrame i et interaktivt gitter. Dette er din mulighed for at identificere "beskidte" data, såsom manglende værdier (vist som null) eller inkonsekvent formatering i kolonnerne "Region" eller "Item_Type".

Hurtig statistik: describe() og summary()

Hvis du vil se "matematikken" bag dine kolonner uden at skrive komplekse forespørgsler, kan du bruge kommandoen describe():

display(df.describe())

Dette returnerer en tabel, der viser Antal, Gennemsnit, Standardafvigelse, Min og Maks for hver numerisk kolonne. Det er den hurtigste måde at tjekke for outliers — for eksempel, hvis din "Min" pris er et negativt tal, ved du, at der er en fejl i dine kildedata.

Optælling af rækker: count()

For at kende omfanget af dit datasæt, brug count()-metoden:

print(df.count())

Dette returnerer et enkelt heltal, der repræsenterer det samlede antal rækker. Nyttigt til at kontrollere, at der ikke er mistet data under indlæsningen.

Visning af kolonnenavne

Hvis du blot har brug for en hurtig liste over kolonnenavne til at kopiere ind i en anden funktion, kan du bruge:

print(df.columns)

Dette returnerer en simpel Python-liste med alle kolonneoverskrifter, hvilket er meget nyttigt, når din DataFrame har dusinvis af kolonner, og du ikke kan huske den præcise stavemåde på én af dem.

1. Hvilken kommando skal du bruge for at se "blåkopien" af din DataFrame, inklusive alle kolonnenavne og datatyper?

2. Hvad er formålet med at køre display(df.describe())?

Var alt klart?

Tak for dine kommentarer!

Sektion 4. Kapitel 3

Spørg AI

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Sektion 4. Kapitel 3