Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Grunnleggende DataFrame-Utforskning | Arbeide med Data
Databricks Grunnleggende: En Nybegynnerguide

Grunnleggende DataFrame-Utforskning

Sveip for å vise menyen

Note
Definisjon

DataFrame-utforskning er prosessen med å inspisere strukturen, datatypene og innholdet i en DataFrame. Kommandoer som printSchema() og display() er de viktigste verktøyene for å validere at dataene er lastet inn korrekt før du starter en analyse.

Når du har lastet inn dataene dine i en DataFrame, kan du ikke bare anta at alt er perfekt. Du må inspisere den for å forstå hva du jobber med. I dette kapittelet vil du bruke to essensielle Python-kommandoer for å "se under panseret" på vår sales_records DataFrame.

Inspisere strukturen: printSchema()

Det første en datafaglig gjør med en ny DataFrame er å sjekke skjemaet. Skjemaet er tegningen av dataene dine—det forteller deg navnet på hver kolonne og hvilken type data den inneholder (Integer, String, Double, osv.).

Kjør i en ny celle:

df.printSchema()

Utdata vil være en trestrukturert liste. Her kan du kontrollere at "Total_Revenue" er en numerisk type (for eksempel double) og ikke bare tekst. Hvis en kolonne du forventet skulle være et tall er oppført som en string, vet du at du må rette datatypene før du utfører beregninger.

Inspisere innholdet: display()

Mens printSchema() viser strukturen, viser display() de faktiske dataene. Som diskutert i seksjon 3, er display() en kraftig Databricks-spesifikk funksjon.

Kjør:

display(df)

Dette viser de første 10 000 radene i DataFrame-en din i et interaktivt rutenett. Dette gir deg muligheten til å oppdage "urene" data, som manglende verdier (vist som null) eller inkonsekvent formatering i kolonnene "Region" eller "Item_Type".

Rask statistikk: describe() og summary()

Hvis du vil se "matematikken" bak kolonnene dine uten å skrive komplekse spørringer, kan du bruke kommandoen describe():

display(df.describe())

Dette returnerer en tabell som viser Antall, Gjennomsnitt, Standardavvik, Min og Maks for hver numeriske kolonne. Dette er den raskeste måten å sjekke etter avvik — for eksempel, hvis "Min"-prisen er et negativt tall, vet du at det er en feil i kilde­dataene dine.

Telle rader: count()

For å vite omfanget av datasettet ditt, bruk count()-metoden:

print(df.count())

Dette returnerer et enkelt heltall som representerer det totale antallet rader. Nyttig for å verifisere at ingen data har gått tapt under innlastingsprosessen.

Vise kolonnenavn

Hvis du bare trenger en rask liste over kolonnenavn for å kopiere og lime inn i en annen funksjon, bruk:

print(df.columns)

Dette returnerer en enkel Python-liste med alle kolonneoverskrifter, noe som er svært nyttig når DataFrame-en din har dusinvis av kolonner og du ikke husker nøyaktig stavemåte på en av dem.

1. Hvilken kommando bør du bruke for å se "blåkopien" av DataFrame-en din, inkludert alle kolonnenavn og datatyper?

2. Hva er formålet med å kjøre display(df.describe())?

question mark

Hvilken kommando bør du bruke for å se "blåkopien" av DataFrame-en din, inkludert alle kolonnenavn og datatyper?

Velg det helt riktige svaret

question mark

Hva er formålet med å kjøre display(df.describe())?

Velg det helt riktige svaret

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 4. Kapittel 3

Spør AI

expand

Spør AI

ChatGPT

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Seksjon 4. Kapittel 3
some-alt