セクション 3. 章 5
single
チャレンジ:IQRによる外れ値の検出
メニューを表示するにはスワイプしてください
外れ値の検出はデータクレンジングにおいて重要な工程であり、これらの極端な値は分析結果を歪め、誤った結論につながる可能性があります。数値列の外れ値を特定するための一般的かつ堅牢な手法の一つが、四分位範囲(IQR)法です。この方法は、平均値や標準偏差に基づく方法とは異なり、極端な値の影響を受けにくいという利点があります。
IQR法では、まずデータの**第1四分位数(Q1)と第3四分位数(Q3)**を計算します。Q1はデータの下位25%が含まれる値、Q3は下位75%が含まれる値です。IQRはQ3からQ1を引いた値であり、データの中央50%の範囲を表します。
IQRを求めた後、データセット内の典型的な値の下限と上限を定義できます。Q1からIQRの1.5倍を引いた値より小さい、またはQ3にIQRの1.5倍を加えた値より大きいデータポイントは、外れ値と見なされます。このルールは、感度と堅牢性のバランスが取れているため、広く利用されています。
12345678910import pandas as pd # Create a DataFrame with a numerical column containing some outliers data = { "score": [10, 12, 13, 14, 15, 16, 17, 18, 100, 110] } df = pd.DataFrame(data) print("Original DataFrame:") print(df)
タスク
スワイプしてコーディングを開始
四分位範囲(IQR)法に基づき、数値型のpandas Series内で外れ値となる値を示すブール型Seriesを返す関数の作成。
- Seriesの第1四分位数(Q1)および第3四分位数(Q3)の算出。
- Q3とQ1の差分としてIQRを計算。
- Q1から1.5倍のIQRを下回る値、およびQ3から1.5倍のIQRを上回る値を下限・上限として決定。
- 元のSeries内で該当する値が外れ値である場合に
Trueとなるブール型Seriesを返却。
解答
すべて明確でしたか?
フィードバックありがとうございます!
セクション 3. 章 5
single
AIに質問する
AIに質問する
何でも質問するか、提案された質問の1つを試してチャットを始めてください