Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
学ぶ 確率分布 | セクション
データ分析のための統計学

book確率分布

メニューを表示するにはスワイプしてください

確率分布はデータ分析における基本的なツールであり、データセット内のさまざまな結果の発生確率を記述するための数学的枠組みを提供します。確率分布を理解することで、不確実性のモデル化、予測、データからの有意な結論の導出が可能となります。分布はパターンの認識、異常値の特定、適切な統計検定の選択に役立ちます。連続データでも離散データでも、どの分布が適用されるかを知ることで、結果を正確に解釈し、信頼性の高いモデルを構築できます。確率分布の習得は、堅牢な統計解析や機械学習手法の効果的な適用を目指すすべての人にとって不可欠です。

正規分布ガウス分布とも呼ばれる)は、統計学やデータ分析で最も広く使用されている確率分布の一つです。対称的で鐘型の曲線が特徴であり、ほとんどのデータ点が平均の周辺に集中し、中心から離れるほど極端な値の確率が減少します。正規分布は2つのパラメータ、すなわち平均(中心を決定)と標準偏差(広がりを測定)によって定義されます。

身長、テストの点数、測定誤差など、多くの自然現象や人工的な現象は、多数の小さな独立した要因の影響を受ける場合、正規分布に従う傾向があります。統計学における正規分布の中心的な役割は、中心極限定理によるものであり、多数の独立した確率変数の和は、その元の分布に関係なく、正規分布に近づくとされています。

1234567891011121314151617181920212223242526
import numpy as np import matplotlib.pyplot as plt from scipy.stats import norm # Generate random data from a normal distribution mean = 0 std_dev = 1 data = np.random.normal(mean, std_dev, 1000) # Calculate mean and standard deviation calculated_mean = np.mean(data) calculated_std = np.std(data) # Plot the histogram and the probability density function (PDF) plt.figure(figsize=(8, 5)) count, bins, ignored = plt.hist(data, bins=30, density=True, alpha=0.6, color='skyblue', label='Histogram') # Plot the PDF x = np.linspace(min(data), max(data), 100) plt.plot(x, norm.pdf(x, mean, std_dev), 'r', linewidth=2, label='Normal PDF') plt.title(f'Normal Distribution (mean={calculated_mean:.2f}, std={calculated_std:.2f})') plt.xlabel('Value') plt.ylabel('Probability Density') plt.legend() plt.show()
copy

二項分布は、離散確率分布の一つで、各試行が独立であり、かつ各試行ごとにsuccessまたはfailureの2つの結果のみが存在する場合に、固定回数の試行における成功回数を記述します。二項分布は、n(試行回数)とp(各試行における成功確率)の2つのパラメータによって定義されます。二項分布は、バッチ内の不良品数、コイン投げで表が出る回数、グループ内で購入する顧客数などのシナリオをモデル化する際によく使用されます。二項分布を分析することで、確率の推定や観測された頻度に基づく意思決定が可能となります。

12345678910111213141516171819
import numpy as np import matplotlib.pyplot as plt from scipy.stats import binom # Parameters for the binomial distribution n = 20 # number of trials p = 0.4 # probability of success # Simulate binomial outcomes x = np.arange(0, n+1) probabilities = binom.pmf(x, n, p) # Plot the binomial distribution plt.figure(figsize=(8, 5)) plt.bar(x, probabilities, color='lightgreen', alpha=0.7) plt.title(f'Binomial Distribution (n={n}, p={p})') plt.xlabel('Number of Successes') plt.ylabel('Probability') plt.show()
copy

ポアソン分布は、一定の時間または空間内で、独立かつ一定の平均発生率で発生する事象の回数をモデル化する離散確率分布です。パラメータλ(ラムダ)は、その区間内で期待される発生回数を表します。ポアソン分布は、1時間あたりに受信するメール数、ローンポートフォリオのデフォルト件数、サービスセンターへの顧客到着数など、まれな事象をモデル化する際に特に有用です。λが小さい場合は分布が歪み、λが大きくなるにつれてより対称的になります。ポアソン分布を理解することで、カウントデータの分析や現実世界の事象発生頻度の予測が可能となります。

123456789101112131415161718
import numpy as np import matplotlib.pyplot as plt from scipy.stats import poisson # Parameter for the Poisson distribution lambda_param = 4 # average number of events # Generate Poisson-distributed data x = np.arange(0, 15) probabilities = poisson.pmf(x, lambda_param) # Plot the Poisson distribution plt.figure(figsize=(8, 5)) plt.bar(x, probabilities, color='orange', alpha=0.7) plt.title(f'Poisson Distribution (lambda={lambda_param})') plt.xlabel('Number of Events') plt.ylabel('Probability') plt.show()
copy
question mark

正規分布とそのデータ分析における主な特徴を最もよく表している記述はどれですか?

正しい答えを選んでください

すべて明確でしたか?

どのように改善できますか?

フィードバックありがとうございます!

セクション 1.  23

AIに質問する

expand

AIに質問する

ChatGPT

何でも質問するか、提案された質問の1つを試してチャットを始めてください

セクション 1.  23
some-alt