Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
学ぶ IQRの計算 | セクション
データ分析のための統計学

bookIQRの計算

メニューを表示するにはスワイプしてください

四分位範囲(IQR)の計算は、実世界データのばらつきを理解するための基本的な手順。IQRはデータセット内の中央50%の値の広がりを測定し、探索的データ分析におけるロバストな統計量。IQRは数学的に次のように定義される:

IQR=Q3Q1\text{IQR} = Q_3 - Q_1

ここで、Q1Q_1は第1四分位数(25パーセンタイル)、Q3Q_3は第3四分位数(75パーセンタイル)。データセット内の各特徴量についてIQRを計算することで、どの変数がより高いばらつきを持ち、どの変数がより密集しているかを素早く特定可能。この知見は外れ値の検出、分布の比較、データ前処理に関する意思決定において重要。

12345678910111213141516171819202122232425
import pandas as pd # Load a sample dataset data = { 'age': [23, 45, 31, 35, 40, 29, 48, 34, 37, 42], 'income': [50000, 80000, 62000, 76000, 54000, 70000, 90000, 65000, 71000, 85000], 'score': [88, 92, 85, 90, 87, 91, 95, 89, 86, 93] } df = pd.DataFrame(data) # Compute Q1 and Q3 for each column q1 = df.quantile(0.25) q3 = df.quantile(0.75) # Compute the IQR for each column iqr = q3 - q1 # Summarize results in a DataFrame iqr_summary = pd.DataFrame({ 'Q1': q1, 'Q3': q3, 'IQR': iqr }) print(iqr_summary)
copy

出力されたDataFrameは、各特徴量ごとの第1四分位数(Q1Q_1)、第3四分位数(Q3Q_3)、およびIQRを表示。IQRの値が大きいほど、その列の中央50%のデータのばらつきが大きいことを示し、IQRの値が小さい場合は多くの値が互いに近い範囲に集中していることを示唆。たとえば、income\text{income}列のIQRscore\text{score}よりも大きい場合、被験者間で収入のばらつきがスコアよりも大きいことを意味。特徴量ごとにIQRを比較することで、どの変数がより分散しているか、どの変数がより一貫しているかを明確に把握でき、データの中で最も変動が大きいまたは安定している側面に分析の焦点を当てるのに役立つ。

question mark

次のうち、高いIQR値がデータセットの列に対して意味することを最もよく表している説明はどれですか?

正しい答えを選んでください

すべて明確でしたか?

どのように改善できますか?

フィードバックありがとうございます!

セクション 1.  32

AIに質問する

expand

AIに質問する

ChatGPT

何でも質問するか、提案された質問の1つを試してチャットを始めてください

セクション 1.  32
some-alt