single
ヒストグラム
メニューを表示するにはスワイプしてください
ヒストグラムは、等幅の垂直ビン(バーと呼ばれることもある)を用いて、変数の頻度または確率分布を表現する図。
pyplotモジュールは、ヒストグラムを作成するためのhist関数を提供。必須パラメータはデータ(x)であり、配列または配列のシーケンスを指定可能。複数の配列を渡すと、それぞれ異なる色で表示される。
12345678910import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a histogram plt.hist(weather_df['Seattle']) plt.show()
区間と高さ
Series 型のシアトルの年間気温データを hist() に渡した例。デフォルトでは、データは最小値から最大値まで10等分の区間に分割されます。ただし、1つの区間に値が含まれていないため、9つのビンのみが表示されます。
ビンの高さは度数(各区間に含まれるデータ点の数)を示します。
ビンの数
オプションの bins パラメータには、整数(ビンの数)、エッジの配列、または文字列を指定できます。通常はビンの数を指定するだけで十分です。
ビン数の選択によく使われるルールの1つが、サンプルサイズに基づくスターゲスの公式です:
bins = 1 + int(np.log2(n))
ここで、n はデータセットのサイズです。
ビン計算の追加手法については、 こちらで確認できます。
12345678910import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Specifying the number of bins plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df)))) plt.show()
DataFrame の行数は 26(Series のサイズ)であり、結果としてビンの数は 5 となる。
確率密度の近似
確率密度を近似するには、density=True で hist() を設定する。
この場合、各ビンの高さは次のようになる:
ここで:
- ( n ) — 値の総数
- ( m ) — ビン内の個数
- ( w ) — ビン幅
これにより、ヒストグラム全体の面積が 1 となり、PDF の挙動と一致する。
12345678910import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Making a histogram a probability density function approximation plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df))), density=True) plt.show()
これは、気温データの確率密度関数のおおよその近似を提供します。
hist() のパラメータについてさらに詳しく知りたい場合は、 hist() ドキュメントを参照してください。
スワイプしてコーディングを開始
標準正規分布からのサンプルを用いて確率密度関数の近似を作成:
- ヒストグラム作成用の正しい関数を使用。
- ヒストグラムのデータとして
normal_sampleを使用。 - ビンの数は Sturges の公式を用いて第2引数として指定。
- 最右引数を正しく指定し、ヒストグラムを確率密度関数の近似とする。
解答
フィードバックありがとうございます!
single
AIに質問する
AIに質問する
何でも質問するか、提案された質問の1つを試してチャットを始めてください