Leer Basisdataframeverkenning | Werken met Gegevens

Veeg om het menu te tonen

Definitie

DataFrame-verkenning is het proces van het inspecteren van de structuur, gegevenstypen en inhoud van een DataFrame. Commando's zoals printSchema() en display() zijn de belangrijkste hulpmiddelen om te controleren of de gegevens correct zijn geladen voordat een analyse wordt gestart.

Zodra de gegevens in een DataFrame zijn geladen, kan niet zomaar worden aangenomen dat deze perfect zijn. Het is noodzakelijk om het te inspecteren om te begrijpen waarmee wordt gewerkt. In dit hoofdstuk worden twee essentiële Python-commando's gebruikt om "onder de motorkap te kijken" van onze sales_records DataFrame.

Structuur inspecteren: printSchema()

Het eerste wat een data professional doet met een nieuwe DataFrame is het controleren van het schema. Het schema is het blauwdruk van de gegevens—het geeft de naam van elke kolom en het type gegevens dat deze bevat (Integer, String, Double, enz.).

Voer in een nieuwe cel het volgende uit:

df.printSchema()

De uitvoer zal een boomstructuur-lijst zijn. Hier controleer je of "Total_Revenue" een numeriek type is (zoals double) en niet slechts een stuk tekst. Als een kolom waarvan je verwachtte dat het een getal zou zijn als string wordt weergegeven, weet je dat je de gegevenstypen moet corrigeren voordat je berekeningen uitvoert.

Inhoud inspecteren: display()

Hoewel printSchema() de structuur toont, laat display() de daadwerkelijke data zien. Zoals besproken in Sectie 3 is display() een krachtige, specifiek voor Databricks ontwikkelde functie.

Voer uit:

display(df)

Hiermee worden de eerste 10.000 rijen van je DataFrame weergegeven in een interactieve rasterweergave. Dit is het moment om "vervuilde" data te herkennen, zoals ontbrekende waarden (weergegeven als null) of inconsistente opmaak in de kolommen "Region" of "Item_Type".

Snelle statistieken: describe() en summary()

Voor inzicht in de "wiskunde" achter je kolommen zonder complexe queries te schrijven, kun je het describe()-commando gebruiken:

display(df.describe())

Dit retourneert een tabel met de Aantal, Gemiddelde, Standaardafwijking, Min en Max voor elke numerieke kolom. Dit is de snelste manier om uitschieters te controleren — bijvoorbeeld, als je "Min" prijs een negatief getal is, weet je dat er een fout in je brondata zit.

Rijen tellen: count()

Om de omvang van je dataset te weten, gebruik je de count() methode:

print(df.count())

Hiermee wordt een enkel geheel getal geretourneerd dat het totale aantal rijen weergeeft. Dit is handig om te controleren of er tijdens het laadproces geen gegevens verloren zijn gegaan.

Kolomnamen bekijken

Als je snel een lijst van de kolomnamen nodig hebt om te kopiëren en plakken in een andere functie, gebruik dan:

print(df.columns)

Dit geeft een eenvoudige Python-lijst van alle kolomkoppen terug, wat erg handig is wanneer je DataFrame tientallen kolommen bevat en je de exacte spelling van een kolom niet meer weet.

1. Welk commando gebruik je om het "blauwdruk" van je DataFrame te zien, inclusief alle kolomnamen en gegevenstypen?

2. Wat is het doel van het uitvoeren van display(df.describe())?

Was alles duidelijk?

Bedankt voor je feedback!

Sectie 4. Hoofdstuk 3

Vraag AI

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Sectie 4. Hoofdstuk 3