Håndtering af Null-værdier
Stryg for at vise menuen
Ved arbejde med data fra den virkelige verden vil du ofte støde på manglende eller null-værdier. I Polars repræsenteres disse som null i stedet for NaN eller andre pladsholdere. Håndtering af manglende værdier er afgørende for at opretholde integriteten af din analyse.
Antag, at du har en DataFrame med en kolonne steam_deck_status, men nogle poster mangler. Du kan håndtere disse manglende værdier på to hovedmåder: udfylde dem med en standardværdi eller fjerne rækkerne helt.
For at udfylde manglende værdier i kolonnen steam_deck_status med strengen "Unknown", anvendes metoden fill_null:
123456789101112import polars as pl df = pl.DataFrame({ "game": ["Portal", "Half-Life", "Aperture Desk Job", "Counter-Strike"], "steam_deck_status": ["Verified", None, "Playable", None] }) # Fill nulls with "Unknown" df_filled = df.with_columns( pl.col("steam_deck_status").fill_null("Unknown") ) print(df_filled)
Hvis du foretrækker at fjerne alle rækker, hvor steam_deck_status mangler, kan du bruge metoden drop_nulls. Dette returnerer en DataFrame, der kun indeholder de rækker, hvor alle kolonner (eller en angivet kolonne) ikke er null:
123# Drop rows where steam_deck_status is null df_no_nulls = df.drop_nulls("steam_deck_status") print(df_no_nulls)
Polars er designet til effektiv og eksplicit håndtering af manglende data. I modsætning til nogle biblioteker, der behandler manglende værdier som en særlig flydende talværdi (NaN), bruger Polars null som et tydeligt signal for manglende data, uanset datatypen. Denne tilgang undgår tvetydighed og sikrer, at manglende data håndteres ensartet på tværs af kolonner, uanset om de indeholder strenge, tal eller datoer.
Tak for dine kommentarer!
Spørg AI
Spørg AI
Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat