Null値の処理
メニューを表示するにはスワイプしてください
実際のデータを扱う際には、欠損値やnull値に頻繁に遭遇します。Polarsでは、これらはnullや他のプレースホルダーではなく、NaNとして表現されます。欠損値の処理は、分析の整合性を保つために不可欠です。
たとえば、steam_deck_status列を持つDataFrameがあり、一部のエントリが欠損している場合があります。これらの欠損値には主に2つの対処方法があります。デフォルト値で埋めるか、行ごと削除する方法です。
steam_deck_status列の欠損値を文字列"Unknown"で埋めるには、fill_nullメソッドを使用します。
123456789101112import polars as pl df = pl.DataFrame({ "game": ["Portal", "Half-Life", "Aperture Desk Job", "Counter-Strike"], "steam_deck_status": ["Verified", None, "Playable", None] }) # Fill nulls with "Unknown" df_filled = df.with_columns( pl.col("steam_deck_status").fill_null("Unknown") ) print(df_filled)
steam_deck_statusが欠損している行を削除したい場合は、drop_nullsメソッドを使用します。これにより、すべての列(または指定した列)がnullでない行のみを含むDataFrameが返されます。
123# Drop rows where steam_deck_status is null df_no_nulls = df.drop_nulls("steam_deck_status") print(df_no_nulls)
Polars は欠損データを効率的かつ明示的に処理するよう設計されています。一部のライブラリが欠損値を特別な浮動小数点値(NaN)として扱うのに対し、Polars ではデータ型に関係なく null を欠損値の明確なシグナルとして使用します。このアプローチにより曖昧さが排除され、文字列、数値、日付のいずれの列でも一貫して欠損データを処理できます。
すべて明確でしたか?
フィードバックありがとうございます!
セクション 3. 章 5
AIに質問する
AIに質問する
何でも質問するか、提案された質問の1つを試してチャットを始めてください
セクション 3. 章 5