Gestione dei Valori Nulli
Scorri per mostrare il menu
Durante il lavoro con dati reali, si incontrano spesso valori mancanti o nulli. In Polars, questi sono rappresentati come null invece di NaN o altri segnaposto. La gestione dei valori mancanti è fondamentale per mantenere l'integrità dell'analisi.
Supponiamo di avere un DataFrame con una colonna steam_deck_status, ma alcune voci sono mancanti. È possibile gestire questi valori mancanti in due modi principali: riempiendoli con un valore predefinito oppure eliminando completamente le righe.
Per riempire i valori mancanti nella colonna steam_deck_status con la stringa "Unknown", utilizzare il metodo fill_null:
123456789101112import polars as pl df = pl.DataFrame({ "game": ["Portal", "Half-Life", "Aperture Desk Job", "Counter-Strike"], "steam_deck_status": ["Verified", None, "Playable", None] }) # Fill nulls with "Unknown" df_filled = df.with_columns( pl.col("steam_deck_status").fill_null("Unknown") ) print(df_filled)
Se si preferisce rimuovere tutte le righe in cui steam_deck_status è mancante, utilizzare il metodo drop_nulls. Questo restituirà un DataFrame contenente solo le righe in cui tutte le colonne (o una colonna specificata) non sono null:
123# Drop rows where steam_deck_status is null df_no_nulls = df.drop_nulls("steam_deck_status") print(df_no_nulls)
Polars è progettato per gestire i dati mancanti in modo efficiente ed esplicito. A differenza di alcune librerie che trattano i valori mancanti come un valore floating point speciale (NaN), Polars utilizza null come segnale chiaro di assenza di valore, indipendentemente dal tipo di dato. Questo approccio evita ambiguità e garantisce che i dati mancanti vengano gestiti in modo coerente tra le colonne, sia che contengano stringhe, numeri o date.
Grazie per i tuoi commenti!
Chieda ad AI
Chieda ad AI
Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione