Обробка Null-значень
Свайпніть щоб показати меню
Під час роботи з реальними даними часто зустрічаються відсутні або null-значення. У Polars такі значення представлені як null, а не як NaN чи інші заповнювачі. Обробка відсутніх значень є важливою для збереження цілісності аналізу.
Припустимо, у вас є DataFrame зі стовпцем steam_deck_status, але деякі записи відсутні. Можна впоратися з цими відсутніми значеннями двома основними способами: заповнити їх значенням за замовчуванням або повністю видалити відповідні рядки.
Щоб заповнити відсутні значення у стовпці steam_deck_status рядком "Unknown", використовуйте метод fill_null:
123456789101112import polars as pl df = pl.DataFrame({ "game": ["Portal", "Half-Life", "Aperture Desk Job", "Counter-Strike"], "steam_deck_status": ["Verified", None, "Playable", None] }) # Fill nulls with "Unknown" df_filled = df.with_columns( pl.col("steam_deck_status").fill_null("Unknown") ) print(df_filled)
Якщо потрібно видалити всі рядки, де значення steam_deck_status відсутнє, використовуйте метод drop_nulls. Це поверне DataFrame, що містить лише ті рядки, у яких усі стовпці (або вказаний стовпець) не містять null-значень:
123# Drop rows where steam_deck_status is null df_no_nulls = df.drop_nulls("steam_deck_status") print(df_no_nulls)
Polars розроблений для ефективної та явної обробки відсутніх даних. На відміну від деяких бібліотек, які розглядають відсутні значення як спеціальне число з плаваючою комою (NaN), Polars використовує null як чіткий сигнал відсутності, незалежно від типу даних. Такий підхід усуває неоднозначність і гарантує послідовну обробку відсутніх даних у стовпцях, незалежно від того, чи містять вони рядки, числа або дати.
Дякуємо за ваш відгук!
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат