Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
学ぶ 外れ値の検出と修正 | データの一貫性と正確性の確保
Pythonによるデータクリーニング

book外れ値の検出と修正

メニューを表示するにはスワイプしてください

外れ値とは、データ内の他のほとんどの観測値と大きく異なる値を指します。これらは測定エラーやデータ入力ミス、またはデータ自体の本来のばらつきによって発生することがあります。外れ値は統計解析を歪め、誤解を招く結果につながる可能性があるため、外れ値の検出と対処はデータの一貫性と正確性を確保する上で重要です。

数値データの外れ値を検出する一般的な手法はいくつかあります。**四分位範囲(IQR)**法は、データの中央50%から大きく外れた値を外れ値として特定します。IQRは第3四分位数(Q3)と第1四分位数(Q1)の差として計算されます。Q1からIQRの1.5倍を引いた値より小さい、またはQ3にIQRの1.5倍を足した値より大きいデータポイントは、通常外れ値と見なされます。

もう一つの一般的な手法はzスコア法で、これは値が平均から標準偏差の何倍離れているかを測定します。zスコアが3より大きい、または-3より小さい値は、しばしば外れ値と見なされます。

1234567891011121314151617181920
import pandas as pd import numpy as np # Sample DataFrame with numerical data data = {'value': [10, 12, 12, 13, 12, 11, 14, 13, 100, 12, 13, 11]} df = pd.DataFrame(data) # Calculate Q1, Q3, and IQR Q1 = df['value'].quantile(0.25) Q3 = df['value'].quantile(0.75) IQR = Q3 - Q1 # Define outlier bounds lower_bound = Q1 - 1.5 * IQR upper_bound = Q3 + 1.5 * IQR # Flag outliers df['is_outlier'] = (df['value'] < lower_bound) | (df['value'] > upper_bound) print(df)
copy

1. IQR法は何のために使われますか?

2. 次のうち、外れ値への一般的な対応方法はどれか。

question mark

IQR法は何のために使われますか?

正しい答えを選んでください

question mark

次のうち、外れ値への一般的な対応方法はどれか。

正しい答えを選んでください

すべて明確でしたか?

どのように改善できますか?

フィードバックありがとうございます!

セクション 3.  2

AIに質問する

expand

AIに質問する

ChatGPT

何でも質問するか、提案された質問の1つを試してチャットを始めてください

セクション 3.  2
some-alt