セクション 5. 章 5
single
欠損値の補完
メニューを表示するにはスワイプしてください
欠損値を削除するだけが対処方法ではありません。すべてのNaNを定義済みの値、例えば列の平均値やゼロで置き換えることも可能です。これは多くのケースで有用です。この方法については、 Learning Statistics with Python のコースで学びます。
次に、列 'Age' の欠損値をこの列の中央値で埋める例を見てみましょう。
1234import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/titanic_2', index_col = 0) data['Age'].fillna(value=data['Age'].median(), inplace=True) print(data['Age'].isna().sum())
解説:
.fillna(value=data['Age'].median(), inplace=True)
value = data['Age'].median()- 引数valueを使って、.fillna()メソッドにNaN値をどのように処理するかを指定します。この場合、.fillna()メソッドを列'Age'に適用し、すべての欠損値をその列の中央値で置き換えています。inplace=True- 変更を保存するために使用できる引数です。
タスク
スワイプしてコーディングを開始
欠損値はデータ分析時に問題を引き起こす可能性があります。 最も一般的な対処方法の一つは、欠損値をその列の平均値で置き換えることです。
今回の課題は以下の通りです:
- 列
NaNのすべての'Age'値を、その列の平均値で置き換えてください。
.fillna()メソッドを使用し、引数にvalue=data['Age'].mean()およびinplace=Trueを指定してください。
'Age'列に残っている欠損値の数を計算し、出力してください。
解答
すべて明確でしたか?
フィードバックありがとうございます!
セクション 5. 章 5
single
AIに質問する
AIに質問する
何でも質問するか、提案された質問の1つを試してチャットを始めてください