Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Grundlæggende DataFrame-Undersøgelse | Arbejde med Data
Databricks Grundlæggende: En Begyndervejledning

Grundlæggende DataFrame-Undersøgelse

Stryg for at vise menuen

Note
Definition

DataFrame-udforskning er processen med at inspicere strukturen, datatyperne og indholdet af en DataFrame. Kommandoer som printSchema() og display() er de primære værktøjer, der bruges til at validere, at data er indlæst korrekt, før analysen påbegyndes.

Når du har indlæst dine data i en DataFrame, kan du ikke blot antage, at de er perfekte. Du skal inspicere dem for at forstå, hvad du arbejder med. I dette kapitel vil du bruge to essentielle Python-kommandoer til at "kigge under motorhjelmen" på vores sales_records DataFrame.

Inspektion af struktur: printSchema()

Det første en datamedarbejder gør med en ny DataFrame, er at tjekke skemaet. Skemaet er din datas blueprint—det fortæller dig navnet på hver kolonne og typen af data, den indeholder (Integer, String, Double osv.).

Kør i en ny celle:

df.printSchema()

Outputtet vil være en træstruktur-liste. Her kan du kontrollere, at "Total_Revenue" er af en numerisk type (som double) og ikke blot et tekstfelt. Hvis en kolonne, du forventede skulle være et tal, er angivet som en string, ved du, at du skal rette datatyperne, før du udfører beregninger.

Inspektion af indholdet: display()

Hvor printSchema() viser strukturen, viser display() de faktiske data. Som nævnt i sektion 3 er display() en kraftfuld, Databricks-specifik funktion.

Kør:

display(df)

Dette viser de første 10.000 rækker af din DataFrame i et interaktivt gitter. Dette er din mulighed for at identificere "beskidte" data, såsom manglende værdier (vist som null) eller inkonsekvent formatering i kolonnerne "Region" eller "Item_Type".

Hurtig statistik: describe() og summary()

Hvis du vil se "matematikken" bag dine kolonner uden at skrive komplekse forespørgsler, kan du bruge kommandoen describe():

display(df.describe())

Dette returnerer en tabel, der viser Antal, Gennemsnit, Standardafvigelse, Min og Maks for hver numerisk kolonne. Det er den hurtigste måde at tjekke for outliers — for eksempel, hvis din "Min" pris er et negativt tal, ved du, at der er en fejl i dine kildedata.

Optælling af rækker: count()

For at kende omfanget af dit datasæt, brug count()-metoden:

print(df.count())

Dette returnerer et enkelt heltal, der repræsenterer det samlede antal rækker. Nyttigt til at kontrollere, at der ikke er mistet data under indlæsningen.

Visning af kolonnenavne

Hvis du blot har brug for en hurtig liste over kolonnenavne til at kopiere ind i en anden funktion, kan du bruge:

print(df.columns)

Dette returnerer en simpel Python-liste med alle kolonneoverskrifter, hvilket er meget nyttigt, når din DataFrame har dusinvis af kolonner, og du ikke kan huske den præcise stavemåde på én af dem.

1. Hvilken kommando skal du bruge for at se "blåkopien" af din DataFrame, inklusive alle kolonnenavne og datatyper?

2. Hvad er formålet med at køre display(df.describe())?

question mark

Hvilken kommando skal du bruge for at se "blåkopien" af din DataFrame, inklusive alle kolonnenavne og datatyper?

Vælg det korrekte svar

question mark

Hvad er formålet med at køre display(df.describe())?

Vælg det korrekte svar

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 4. Kapitel 3

Spørg AI

expand

Spørg AI

ChatGPT

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Sektion 4. Kapitel 3
some-alt