Lernen Grundlegende DataFrame-Erkundung

Swipe um das Menü anzuzeigen

Definition

DataFrame-Exploration bezeichnet den Prozess der Überprüfung der Struktur, Datentypen und Inhalte eines DataFrames. Befehle wie printSchema() und display() sind die wichtigsten Werkzeuge, um zu validieren, dass die Daten korrekt geladen wurden, bevor mit der Analyse begonnen wird.

Nachdem die Daten in ein DataFrame geladen wurden, kann nicht einfach davon ausgegangen werden, dass sie fehlerfrei sind. Es ist notwendig, das DataFrame zu überprüfen, um zu verstehen, womit gearbeitet wird. In diesem Kapitel werden zwei grundlegende Python-Befehle verwendet, um einen genaueren Blick auf das sales_records DataFrame zu werfen.

Überprüfung der Struktur: printSchema()

Der erste Schritt eines Datenprofis mit einem neuen DataFrame ist die Überprüfung des Schemas. Das Schema ist der Bauplan der Daten – es zeigt die Namen aller Spalten und die jeweiligen Datentypen (Integer, String, Double usw.) an.

In einer neuen Zelle ausführen:

df.printSchema()

Die Ausgabe erfolgt als baumartige Liste. Hier kann überprüft werden, ob "Total_Revenue" ein numerischer Typ (wie double) ist und nicht nur ein Text. Wenn eine Spalte, die als Zahl erwartet wird, als string aufgeführt ist, muss der Datentyp vor der Durchführung von Berechnungen angepasst werden.

Inhaltsüberprüfung: display()

Während printSchema() die Struktur anzeigt, zeigt display() die tatsächlichen Daten. Wie in Abschnitt 3 besprochen, ist display() eine leistungsstarke, Databricks-spezifische Funktion.

Ausführen:

display(df)

Dies zeigt die ersten 10.000 Zeilen Ihres DataFrames in einem interaktiven Raster an. Hier können Sie "unsaubere" Daten erkennen, wie fehlende Werte (angezeigt als null) oder uneinheitliche Formatierungen in den Spalten "Region" oder "Item_Type".

Schnelle Statistiken: describe() und summary()

Wenn Sie die "mathematischen" Kennzahlen Ihrer Spalten sehen möchten, ohne komplexe Abfragen zu schreiben, können Sie den Befehl describe() verwenden:

display(df.describe())

Dies gibt eine Tabelle mit Anzahl, Mittelwert, Standardabweichung, Minimum und Maximum für jede numerische Spalte zurück. Dies ist der schnellste Weg, um Ausreißer zu erkennen — zum Beispiel, wenn Ihr "Min"-Preis eine negative Zahl ist, wissen Sie, dass ein Fehler in Ihren Quelldaten vorliegt.

Zeilen zählen: count()

Um den Umfang Ihres Datensatzes zu bestimmen, verwenden Sie die Methode count():

print(df.count())

Dies gibt eine einzelne Ganzzahl zurück, die die Gesamtanzahl der Zeilen darstellt. Nützlich zur Überprüfung, ob beim Laden keine Daten verloren gegangen sind.

Anzeigen von Spaltennamen

Wenn lediglich eine schnelle Liste der Spaltennamen benötigt wird, um sie in eine andere Funktion zu kopieren, verwenden Sie:

print(df.columns)

Dies gibt eine einfache Python-Liste aller Überschriften zurück, was sehr hilfreich ist, wenn Ihr DataFrame Dutzende von Spalten enthält und Sie sich an die genaue Schreibweise einer Spalte nicht erinnern können.

1. Welchen Befehl sollten Sie verwenden, um den "Bauplan" Ihres DataFrames mit allen Spaltennamen und Datentypen anzuzeigen?

2. Welchen Zweck hat das Ausführen von display(df.describe())?

War alles klar?

Danke für Ihr Feedback!

Abschnitt 4. Kapitel 3

Fragen Sie AI

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Abschnitt 4. Kapitel 3