CLTとは何か?
メニューを表示するにはスワイプしてください
**中心極限定理(CLT)**は、統計学における基礎的な概念であり、もとのデータが正規分布でなくても、なぜ正規分布が実際によく現れるのかを説明するものです。
この定理は、独立かつ同一分布(i.i.d.)の確率変数を多数取り出し、それぞれが有限の平均と分散を持つ場合、サンプル平均の分布は、元の分布の形状に関係なく、サンプルサイズが大きくなるにつれて正規分布(ベル型曲線)に近づくと述べています。
CLTは、確率論と実践的なデータ分析を結びつける強力な架け橋となります。たとえデータが所得、待ち時間、テストの点数など、偏ったり特殊な分布から得られた場合でも、多くの独立したサンプルの平均を取ることで、サンプルサイズが増えるほど平均値の分布は正規分布に近づきます。
例えば、無作為に選んだ30人の成人の平均身長を何度も測定すると、これらの平均値のヒストグラムは、元の身長データが完全な正規分布でなくても、次第にベル型曲線に近づいていきます。
この収束が起こるのは、各サンプル内のランダムな「上下」が相殺され、極端な値が平均化によって出現しにくくなるためです。サンプルサイズが大きいほど、サンプル平均の分布は真の正規分布に近づきます。そのため、実際には生データが正規分布でなくても、正規分布に基づく統計手法をよく利用できます。
CLTが適用されるためには、主に2つの前提条件があります:
- 変数が独立であること:1つの変数の結果が他の変数に影響しない;
- 変数が同一分布であること:各変数が同じ確率分布に従い、同じ平均と分散を持つ。
CLTの強みは、データ自体が正規分布でなくても、平均や合計の分析に正規分布の確率手法を使える点にあります。これには大きな実用的意義があります:
- 信頼区間、仮説検定、管理図などの手法をサンプル平均や合計に自信を持って適用できる;
- サンプルが十分に大きく、データが基本的な要件を満たしていれば、前提条件が成立する。
123456789101112131415161718192021222324252627282930import numpy as np import matplotlib.pyplot as plt # Simulate sampling from a non-normal (exponential) distribution np.random.seed(42) population = np.random.exponential(scale=2.0, size=10000) sample_size = 30 n_samples = 1000 sample_means = [] for _ in range(n_samples): sample = np.random.choice(population, size=sample_size, replace=False) sample_means.append(np.mean(sample)) plt.figure(figsize=(10, 4)) plt.subplot(1, 2, 1) plt.hist(population, bins=40, color='skyblue', edgecolor='black') plt.title("Original Exponential Distribution") plt.xlabel("Value") plt.ylabel("Frequency") plt.subplot(1, 2, 2) plt.hist(sample_means, bins=30, color='salmon', edgecolor='black') plt.title("Distribution of Sample Means") plt.xlabel("Sample Mean") plt.ylabel("Frequency") plt.tight_layout() plt.show()
このシミュレーションを中心極限定理と結びつけて考えてみましょう。まず、exponential分布から得られる多数の値で「母集団」を作成します。この分布は正規分布ではなく、一般的に右に歪んでいます。次に、この母集団から固定サイズ(ここでは30)の無作為サンプルを繰り返し抽出します。各サンプルについて平均値を計算し、これを多数回(ここでは1,000回)繰り返して平均値を集めます。
最初のヒストグラムは、元の指数分布の母集団を示しており、その歪んだ形状が明確に分かります。2つ目のヒストグラムは、サンプル平均の分布を示しています。元の母集団が正規分布でなくても、サンプル平均の分布がより対称的でベル型に近づいていることに注目してください。この変化は中心極限定理の実例であり、十分なサイズのサンプルを多く取ることで、その平均値の分布が母集団の形状に関係なくnormal分布に近づくことを示しています。
フィードバックありがとうございます!
AIに質問する
AIに質問する
何でも質問するか、提案された質問の1つを試してチャットを始めてください