Hantering av Null-värden
Svep för att visa menyn
Vid arbete med verkliga data stöter du ofta på saknade eller null-värden. I Polars representeras dessa som null istället för NaN eller andra platshållare. Hantering av saknade värden är avgörande för att upprätthålla analysens integritet.
Anta att du har en DataFrame med en kolumn steam_deck_status, men vissa poster saknas. Du kan hantera dessa saknade värden på två huvudsakliga sätt: fylla dem med ett standardvärde eller ta bort raderna helt.
För att fylla saknade värden i kolumnen steam_deck_status med strängen "Unknown", använd metoden fill_null:
123456789101112import polars as pl df = pl.DataFrame({ "game": ["Portal", "Half-Life", "Aperture Desk Job", "Counter-Strike"], "steam_deck_status": ["Verified", None, "Playable", None] }) # Fill nulls with "Unknown" df_filled = df.with_columns( pl.col("steam_deck_status").fill_null("Unknown") ) print(df_filled)
Om du föredrar att ta bort alla rader där steam_deck_status saknas, använd metoden drop_nulls. Detta returnerar en DataFrame som endast innehåller de rader där alla kolumner (eller en angiven kolumn) inte är null:
123# Drop rows where steam_deck_status is null df_no_nulls = df.drop_nulls("steam_deck_status") print(df_no_nulls)
Polars är utformat för att hantera saknade data effektivt och tydligt. Till skillnad från vissa bibliotek som behandlar saknade värden som ett speciellt flyttalvärde (NaN), använder Polars null som en tydlig signal för saknad data, oavsett datatyp. Detta tillvägagångssätt undviker tvetydighet och säkerställer att saknade data hanteras konsekvent över kolumner, oavsett om de innehåller strängar, tal eller datum.
Tack för dina kommentarer!
Fråga AI
Fråga AI
Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal