Umgang mit Nullwerten
Swipe um das Menü anzuzeigen
Beim Arbeiten mit realen Daten stößt man häufig auf fehlende oder Null-Werte. In Polars werden diese als null dargestellt, nicht als NaN oder andere Platzhalter. Die Behandlung fehlender Werte ist entscheidend für die Integrität der Analyse.
Angenommen, ein DataFrame enthält eine Spalte steam_deck_status, in der einige Einträge fehlen. Diese fehlenden Werte können auf zwei Hauptarten behandelt werden: durch Auffüllen mit einem Standardwert oder durch vollständiges Entfernen der entsprechenden Zeilen.
Um fehlende Werte in der Spalte steam_deck_status mit dem String "Unknown" zu ersetzen, wird die Methode fill_null verwendet:
123456789101112import polars as pl df = pl.DataFrame({ "game": ["Portal", "Half-Life", "Aperture Desk Job", "Counter-Strike"], "steam_deck_status": ["Verified", None, "Playable", None] }) # Fill nulls with "Unknown" df_filled = df.with_columns( pl.col("steam_deck_status").fill_null("Unknown") ) print(df_filled)
Wenn stattdessen alle Zeilen entfernt werden sollen, in denen steam_deck_status fehlt, kann die Methode drop_nulls verwendet werden. Dadurch wird ein DataFrame zurückgegeben, das nur die Zeilen enthält, in denen alle Spalten (oder eine angegebene Spalte) nicht null sind:
123# Drop rows where steam_deck_status is null df_no_nulls = df.drop_nulls("steam_deck_status") print(df_no_nulls)
Polars ist darauf ausgelegt, fehlende Daten effizient und explizit zu behandeln. Im Gegensatz zu einigen Bibliotheken, die fehlende Werte als speziellen Gleitkommawert (NaN) interpretieren, verwendet Polars null als eindeutiges Signal für fehlende Werte, unabhängig vom Datentyp. Dieser Ansatz vermeidet Mehrdeutigkeiten und stellt sicher, dass fehlende Daten konsistent über alle Spalten hinweg behandelt werden, egal ob sie Strings, Zahlen oder Datumswerte enthalten.
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen