メニューを表示するにはスワイプしてください

四分位範囲（IQR）の計算は、実世界データのばらつきを理解するための基本的な手順。IQRはデータセット内の中央50%の値の広がりを測定し、探索的データ分析におけるロバストな統計量。IQRは数学的に次のように定義される：

\text{IQR} = Q_3 - Q_1

ここで、 $Q_1$ は第1四分位数（25パーセンタイル）、 $Q_3$ は第3四分位数（75パーセンタイル）。データセット内の各特徴量についてIQRを計算することで、どの変数がより高いばらつきを持ち、どの変数がより密集しているかを素早く特定可能。この知見は外れ値の検出、分布の比較、データ前処理に関する意思決定において重要。


              12345678910111213141516171819202122232425
            
import pandas as pd

# Load a sample dataset
data = {
    'age': [23, 45, 31, 35, 40, 29, 48, 34, 37, 42],
    'income': [50000, 80000, 62000, 76000, 54000, 70000, 90000, 65000, 71000, 85000],
    'score': [88, 92, 85, 90, 87, 91, 95, 89, 86, 93]
}
df = pd.DataFrame(data)

# Compute Q1 and Q3 for each column
q1 = df.quantile(0.25)
q3 = df.quantile(0.75)

# Compute the IQR for each column
iqr = q3 - q1

# Summarize results in a DataFrame
iqr_summary = pd.DataFrame({
    'Q1': q1,
    'Q3': q3,
    'IQR': iqr
})

print(iqr_summary)

出力されたDataFrameは、各特徴量ごとの第1四分位数（ $Q_1$ ）、第3四分位数（ $Q_3$ ）、およびIQRを表示。IQRの値が大きいほど、その列の中央50%のデータのばらつきが大きいことを示し、IQRの値が小さい場合は多くの値が互いに近い範囲に集中していることを示唆。たとえば、 $\text{income}$ 列のIQRが $\text{score}$ よりも大きい場合、被験者間で収入のばらつきがスコアよりも大きいことを意味。特徴量ごとにIQRを比較することで、どの変数がより分散しているか、どの変数がより一貫しているかを明確に把握でき、データの中で最も変動が大きいまたは安定している側面に分析の焦点を当てるのに役立つ。

すべて明確でしたか？

フィードバックありがとうございます！

セクション 1. 章 32

AIに質問する

何でも質問するか、提案された質問の1つを試してチャットを始めてください

IQRの計算

\text{IQR} = Q_3 - Q_1


              12345678910111213141516171819202122232425
            
import pandas as pd

# Load a sample dataset
data = {
    'age': [23, 45, 31, 35, 40, 29, 48, 34, 37, 42],
    'income': [50000, 80000, 62000, 76000, 54000, 70000, 90000, 65000, 71000, 85000],
    'score': [88, 92, 85, 90, 87, 91, 95, 89, 86, 93]
}
df = pd.DataFrame(data)

# Compute Q1 and Q3 for each column
q1 = df.quantile(0.25)
q3 = df.quantile(0.75)

# Compute the IQR for each column
iqr = q3 - q1

# Summarize results in a DataFrame
iqr_summary = pd.DataFrame({
    'Q1': q1,
    'Q3': q3,
    'IQR': iqr
})

print(iqr_summary)

すべて明確でしたか？

フィードバックありがとうございます！

セクション 1. 章 32