セクション 4. 章 2
single
箱ひげ図
メニューを表示するにはスワイプしてください
定義
箱ひげ図 は、統計で非常によく使われるプロットであり、四分位数を通じてデータの中心傾向、分布、および外れ値の可能性を可視化するためのもの。
四分位数
四分位数は、ソートされたデータを4つの等しい部分に分割:
- Q1 — 最小値と中央値の中間点(下位25%のデータ);
- Q2 — 中央値(下位50%のデータ);
- Q3 — 中央値と最大値の中間点(下位75%のデータ)。
箱ひげ図の要素
- ボックスの左側はQ1、右側はQ3を示す;
- IQR = Q3 − Q1、ボックスの幅として表示され、中央値は黄色の線で示される;
- ウィスカーは (Q1 - 1.5 \cdot IQR) および (Q3 + 1.5 \cdot IQR) まで伸びる;
- ウィスカーの外側の点は外れ値。
ボックスプロットは matplotlib を使用して生成可能。
1234567891011import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a box plot for the Seattle temperatures plt.boxplot(weather_df['Seattle']) plt.show()
ボックスプロットのデータ
plt.boxplot(x) を使用。x は1次元の配列ライクオブジェクト、2次元配列(各列ごとに1つのボックス)、または1次元配列のシーケンスが指定可能。
オプションパラメータ
tick_labels は、特に複数の配列をプロットする際に、ボックスプロットに名前を付けるのに便利。
12345678910import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating two box plots for Boston and Seattle temperatures plt.boxplot(weather_df, tick_labels=['Boston', 'Seattle']) plt.show()
2つの数値列を持つDataFrameをboxplot()に渡すと、ラベルが自動的に割り当てられた2つの個別のボックスプロットが作成される。
さらに学ぶ
箱ひげ図をカスタマイズするためのオプションパラメータも多数用意されています。詳細は boxplot() ドキュメントで確認できますが、実際にはそれらを使用する機会はあまり多くありません。
タスク
スワイプしてコーディングを開始
標準正規分布から得られた2つのサンプルを用いて、2つの箱ひげ図を作成します。
- 適切な関数を使用して箱ひげ図を作成してください。
- データとして
normal_sample_1とnormal_sample_2のリスト(この順番で左から右)を使用します。 - 左側の箱ひげ図には
First sample、右側にはSecond sampleというラベルをlistを使って付けてください。
解答
すべて明確でしたか?
フィードバックありがとうございます!
セクション 4. 章 2
single
AIに質問する
AIに質問する
何でも質問するか、提案された質問の1つを試してチャットを始めてください