Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Umgang mit Nullwerten | Zeichenketten, Daten, Fehlende Werte
Data Wrangling mit Polars

Umgang mit Nullwerten

Swipe um das Menü anzuzeigen

Beim Arbeiten mit realen Daten stößt man häufig auf fehlende oder Null-Werte. In Polars werden diese als null dargestellt, nicht als NaN oder andere Platzhalter. Die Behandlung fehlender Werte ist entscheidend für die Integrität der Analyse.

Angenommen, ein DataFrame enthält eine Spalte steam_deck_status, in der einige Einträge fehlen. Diese fehlenden Werte können auf zwei Hauptarten behandelt werden: durch Auffüllen mit einem Standardwert oder durch vollständiges Entfernen der entsprechenden Zeilen.

Um fehlende Werte in der Spalte steam_deck_status mit dem String "Unknown" zu ersetzen, wird die Methode fill_null verwendet:

123456789101112
import polars as pl df = pl.DataFrame({ "game": ["Portal", "Half-Life", "Aperture Desk Job", "Counter-Strike"], "steam_deck_status": ["Verified", None, "Playable", None] }) # Fill nulls with "Unknown" df_filled = df.with_columns( pl.col("steam_deck_status").fill_null("Unknown") ) print(df_filled)

Wenn stattdessen alle Zeilen entfernt werden sollen, in denen steam_deck_status fehlt, kann die Methode drop_nulls verwendet werden. Dadurch wird ein DataFrame zurückgegeben, das nur die Zeilen enthält, in denen alle Spalten (oder eine angegebene Spalte) nicht null sind:

123
# Drop rows where steam_deck_status is null df_no_nulls = df.drop_nulls("steam_deck_status") print(df_no_nulls)

Polars ist darauf ausgelegt, fehlende Daten effizient und explizit zu behandeln. Im Gegensatz zu einigen Bibliotheken, die fehlende Werte als speziellen Gleitkommawert (NaN) interpretieren, verwendet Polars null als eindeutiges Signal für fehlende Werte, unabhängig vom Datentyp. Dieser Ansatz vermeidet Mehrdeutigkeiten und stellt sicher, dass fehlende Daten konsistent über alle Spalten hinweg behandelt werden, egal ob sie Strings, Zahlen oder Datumswerte enthalten.

question mark

Welche Methode würden Sie verwenden, um fehlende Werte in der Spalte steam_deck_status durch "Unknown" zu ersetzen?

Wählen Sie die richtige Antwort aus

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 5

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Abschnitt 3. Kapitel 5
some-alt