外れ値の検出と修正
メニューを表示するにはスワイプしてください
外れ値とは、データ内の他のほとんどの観測値と大きく異なる値を指します。これらは測定エラーやデータ入力ミス、またはデータ自体の本来のばらつきによって発生することがあります。外れ値は統計解析を歪め、誤解を招く結果につながる可能性があるため、外れ値の検出と対処はデータの一貫性と正確性を確保する上で重要です。
数値データの外れ値を検出する一般的な手法はいくつかあります。**四分位範囲(IQR)**法は、データの中央50%から大きく外れた値を外れ値として特定します。IQRは第3四分位数(Q3)と第1四分位数(Q1)の差として計算されます。Q1からIQRの1.5倍を引いた値より小さい、またはQ3にIQRの1.5倍を足した値より大きいデータポイントは、通常外れ値と見なされます。
もう一つの一般的な手法はzスコア法で、これは値が平均から標準偏差の何倍離れているかを測定します。zスコアが3より大きい、または-3より小さい値は、しばしば外れ値と見なされます。
1234567891011121314151617181920import pandas as pd import numpy as np # Sample DataFrame with numerical data data = {'value': [10, 12, 12, 13, 12, 11, 14, 13, 100, 12, 13, 11]} df = pd.DataFrame(data) # Calculate Q1, Q3, and IQR Q1 = df['value'].quantile(0.25) Q3 = df['value'].quantile(0.75) IQR = Q3 - Q1 # Define outlier bounds lower_bound = Q1 - 1.5 * IQR upper_bound = Q3 + 1.5 * IQR # Flag outliers df['is_outlier'] = (df['value'] < lower_bound) | (df['value'] > upper_bound) print(df)
1. IQR法は何のために使われますか?
2. 次のうち、外れ値への一般的な対応方法はどれか。
すべて明確でしたか?
フィードバックありがとうございます!
セクション 3. 章 2
AIに質問する
AIに質問する
何でも質問するか、提案された質問の1つを試してチャットを始めてください
セクション 3. 章 2