Grundläggande DataFrame-Utforskning
Svep för att visa menyn
DataFrame-utforskning är processen att inspektera strukturen, datatyperna och innehållet i en DataFrame. Kommandon som printSchema() och display() är de främsta verktygen för att validera att data har laddats korrekt innan analysen påbörjas.
När du har laddat in dina data i en DataFrame kan du inte bara anta att allt är perfekt. Du måste inspektera den för att förstå vad du arbetar med. I detta kapitel kommer du att använda två viktiga Python-kommandon för att "titta under huven" på vår sales_records DataFrame.
Inspektera strukturen: printSchema()
Det första en dataproffs gör med en ny DataFrame är att kontrollera schemat. Schemat är ritningen för dina data—det visar namnet på varje kolumn och vilken typ av data den innehåller (Integer, String, Double, etc.).
Kör i en ny cell:
df.printSchema()
Utdata kommer att vara en trädliknande lista. Här verifierar du att "Total_Revenue" är av numerisk typ (som double) och inte bara en textsträng. Om en kolumn som du förväntade dig skulle vara ett tal listas som en string, vet du att du behöver korrigera datatyperna innan du utför beräkningar.
Inspektera innehållet: display()
Medan printSchema() visar strukturen, visar display() själva datan. Som vi diskuterade i avsnitt 3 är display() en kraftfull Databricks-specifik funktion.
Kör:
display(df)
Detta visar de första 10 000 raderna i din DataFrame i ett interaktivt rutnät. Här kan du upptäcka "smutsig" data, såsom saknade värden (visas som null) eller inkonsekvent formatering i kolumnerna "Region" eller "Item_Type".
Snabb statistik: describe() och summary()
Om du vill se "matematiken" bakom dina kolumner utan att skriva komplexa frågor kan du använda kommandot describe():
display(df.describe())
Detta returnerar en tabell som visar Antal, Medelvärde, Standardavvikelse, Min och Max för varje numerisk kolumn. Det är det snabbaste sättet att kontrollera avvikande värden — till exempel, om ditt "Min"-pris är ett negativt tal vet du att det finns ett fel i din källdata.
Räkna rader: count()
För att veta omfattningen av din datamängd, använd metoden count():
print(df.count())
Detta returnerar ett enda heltal som representerar det totala antalet rader. Användbart för att verifiera att ingen data har gått förlorad under inläsningsprocessen.
Visa kolumnnamn
Om du snabbt behöver en lista över kolumnnamnen för att kopiera och klistra in i en annan funktion, använd:
print(df.columns)
Detta returnerar en enkel Python-lista med alla rubriker, vilket är mycket användbart när din DataFrame har dussintals kolumner och du inte kan komma ihåg den exakta stavningen på en.
1. Vilket kommando ska du använda för att se "ritningen" av din DataFrame, inklusive alla kolumnnamn och datatyper?
2. Vad är syftet med att köra display(df.describe())?
Tack för dina kommentarer!
Fråga AI
Fråga AI
Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal