Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
学ぶ 欠損データ処理の手法 | 欠損データおよび重複データの処理
Pythonによるデータクリーニング

book欠損データ処理の手法

メニューを表示するにはスワイプしてください

実際のデータセットを扱う際には、分析やモデルのパフォーマンスを妨げる欠損値に頻繁に遭遇します。欠損データの処理は、データクリーニングにおける重要なステップです。欠損値に対処するためには、いくつかの戦略があります。最も単純な方法は、削除法を用いて欠損値を含む行や列を削除することです。この方法は完全なデータのみを使用できる一方で、データセットのサイズが小さくなり、貴重な情報が失われる可能性があります。

もう一つ一般的な手法は、定数で欠損値を埋めることです。例えば、ゼロや空文字列などを用いる方法で、カテゴリカル列やインジケーター列に有効です。ただし、定数が欠損データの本質を正確に表していない場合、バイアスが生じる可能性があります。

より精緻な方法としては、統計的補完があります。これは、利用可能なデータから計算した統計量で欠損値を置き換える方法です。数値列の場合、列の平均値や中央値を使用することが一般的です。平均値は正規分布(対称分布)の列に適しており、中央値は外れ値が存在する場合や分布が歪んでいる場合により堅牢です。

12345678910111213141516171819202122232425262728
import pandas as pd # Create a sample DataFrame with missing values data = { "age": [25, None, 30, 22, None], "income": [50000, 60000, None, 52000, 58000] } df = pd.DataFrame(data) # Drop rows with any missing values df_dropped = df.dropna() # Fill missing values with a constant (e.g., 0) df_filled_constant = df.fillna(0) # Impute missing values in 'age' column with the mean df_filled_mean = df.copy() df_filled_mean["age"] = df_filled_mean["age"].fillna(df_filled_mean["age"].mean()) print("Original DataFrame:") print(df) print("\nAfter dropna():") print(df_dropped) print("\nAfter fillna(0):") print(df_filled_constant) print("\nAfter fillna() with mean for 'age':") print(df_filled_mean)
copy

1. pandasのdropna()メソッドはデフォルトで何をしますか?

2. 正規分布を持つ数値列に最適な補完方法はどれか?

question mark

pandasのdropna()メソッドはデフォルトで何をしますか?

正しい答えを選んでください

question mark

正規分布を持つ数値列に最適な補完方法はどれか?

正しい答えを選んでください

すべて明確でしたか?

どのように改善できますか?

フィードバックありがとうございます!

セクション 2.  1

AIに質問する

expand

AIに質問する

ChatGPT

何でも質問するか、提案された質問の1つを試してチャットを始めてください

セクション 2.  1
some-alt