Grunnleggende DataFrame-Utforskning
Sveip for å vise menyen
DataFrame-utforskning er prosessen med å inspisere strukturen, datatypene og innholdet i en DataFrame. Kommandoer som printSchema() og display() er de viktigste verktøyene for å validere at dataene er lastet inn korrekt før du starter en analyse.
Når du har lastet inn dataene dine i en DataFrame, kan du ikke bare anta at alt er perfekt. Du må inspisere den for å forstå hva du jobber med. I dette kapittelet vil du bruke to essensielle Python-kommandoer for å "se under panseret" på vår sales_records DataFrame.
Inspisere strukturen: printSchema()
Det første en datafaglig gjør med en ny DataFrame er å sjekke skjemaet. Skjemaet er tegningen av dataene dine—det forteller deg navnet på hver kolonne og hvilken type data den inneholder (Integer, String, Double, osv.).
Kjør i en ny celle:
df.printSchema()
Utdata vil være en trestrukturert liste. Her kan du kontrollere at "Total_Revenue" er en numerisk type (for eksempel double) og ikke bare tekst. Hvis en kolonne du forventet skulle være et tall er oppført som en string, vet du at du må rette datatypene før du utfører beregninger.
Inspisere innholdet: display()
Mens printSchema() viser strukturen, viser display() de faktiske dataene. Som diskutert i seksjon 3, er display() en kraftig Databricks-spesifikk funksjon.
Kjør:
display(df)
Dette viser de første 10 000 radene i DataFrame-en din i et interaktivt rutenett. Dette gir deg muligheten til å oppdage "urene" data, som manglende verdier (vist som null) eller inkonsekvent formatering i kolonnene "Region" eller "Item_Type".
Rask statistikk: describe() og summary()
Hvis du vil se "matematikken" bak kolonnene dine uten å skrive komplekse spørringer, kan du bruke kommandoen describe():
display(df.describe())
Dette returnerer en tabell som viser Antall, Gjennomsnitt, Standardavvik, Min og Maks for hver numeriske kolonne. Dette er den raskeste måten å sjekke etter avvik — for eksempel, hvis "Min"-prisen er et negativt tall, vet du at det er en feil i kildedataene dine.
Telle rader: count()
For å vite omfanget av datasettet ditt, bruk count()-metoden:
print(df.count())
Dette returnerer et enkelt heltall som representerer det totale antallet rader. Nyttig for å verifisere at ingen data har gått tapt under innlastingsprosessen.
Vise kolonnenavn
Hvis du bare trenger en rask liste over kolonnenavn for å kopiere og lime inn i en annen funksjon, bruk:
print(df.columns)
Dette returnerer en enkel Python-liste med alle kolonneoverskrifter, noe som er svært nyttig når DataFrame-en din har dusinvis av kolonner og du ikke husker nøyaktig stavemåte på en av dem.
1. Hvilken kommando bør du bruke for å se "blåkopien" av DataFrame-en din, inkludert alle kolonnenavn og datatyper?
2. Hva er formålet med å kjøre display(df.describe())?
Takk for tilbakemeldingene dine!
Spør AI
Spør AI
Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår