IQRの計算
メニューを表示するにはスワイプしてください
四分位範囲(IQR)の計算は、実世界データのばらつきを理解するための基本的な手順。IQRはデータセット内の中央50%の値の広がりを測定し、探索的データ分析におけるロバストな統計量。IQRは数学的に次のように定義される:
IQR=Q3−Q1ここで、Q1は第1四分位数(25パーセンタイル)、Q3は第3四分位数(75パーセンタイル)。データセット内の各特徴量についてIQRを計算することで、どの変数がより高いばらつきを持ち、どの変数がより密集しているかを素早く特定可能。この知見は外れ値の検出、分布の比較、データ前処理に関する意思決定において重要。
12345678910111213141516171819202122232425import pandas as pd # Load a sample dataset data = { 'age': [23, 45, 31, 35, 40, 29, 48, 34, 37, 42], 'income': [50000, 80000, 62000, 76000, 54000, 70000, 90000, 65000, 71000, 85000], 'score': [88, 92, 85, 90, 87, 91, 95, 89, 86, 93] } df = pd.DataFrame(data) # Compute Q1 and Q3 for each column q1 = df.quantile(0.25) q3 = df.quantile(0.75) # Compute the IQR for each column iqr = q3 - q1 # Summarize results in a DataFrame iqr_summary = pd.DataFrame({ 'Q1': q1, 'Q3': q3, 'IQR': iqr }) print(iqr_summary)
出力されたDataFrameは、各特徴量ごとの第1四分位数(Q1)、第3四分位数(Q3)、およびIQRを表示。IQRの値が大きいほど、その列の中央50%のデータのばらつきが大きいことを示し、IQRの値が小さい場合は多くの値が互いに近い範囲に集中していることを示唆。たとえば、income列のIQRがscoreよりも大きい場合、被験者間で収入のばらつきがスコアよりも大きいことを意味。特徴量ごとにIQRを比較することで、どの変数がより分散しているか、どの変数がより一貫しているかを明確に把握でき、データの中で最も変動が大きいまたは安定している側面に分析の焦点を当てるのに役立つ。
すべて明確でしたか?
フィードバックありがとうございます!
セクション 1. 章 32
AIに質問する
AIに質問する
何でも質問するか、提案された質問の1つを試してチャットを始めてください
セクション 1. 章 32