Summary
This chapter explains how to implement code that calculates confidence intervals for sample means and proportions using statistical distributions to express estimation uncertainty.

General domain of usage
A/B testing

**信頼区間**の理解は、A/Bテストの結果を解釈する上で不可欠な要素。**信頼区間**は、母集団パラメータ（平均や比率など）の真の値が含まれている可能性が高い値の範囲を、一定の信頼水準（一般的に95%）で示すもの。単一の推定値（例えば2つのグループ間のコンバージョン率の差）だけを報告するのではなく、**信頼区間**を用いることで、その推定値に対する不確実性を表現できる。これにより、観測された効果だけでなく、データに基づく真の効果の可能な範囲も把握できる。

平均の信頼区間は、通常次のように計算される：

$$
\bar{x} \pm t^* \cdot \frac{s}{\sqrt{n}}
$$

ここで：
- $$\bar{x}$$ は標本平均；
- $$t^*$$ はt分布の臨界値；
- $$s$$ は標本標準偏差；
- $$n$$ は標本サイズ。

比率の場合、信頼区間は次の通り：

$$
p \pm z^* \cdot \sqrt{\frac{p(1-p)}{n}}
$$

ここで：
- $$p$$ は標本比率；
- $$z^*$$ は正規分布の臨界値；
- $$n$$ は標本サイズ。

A/Bテストにおいて、**信頼区間**は特に重要であり、結果が統計的に有意かどうか、観測された差をどれだけ信頼できるかを判断する助けとなる。グループ間の差の**信頼区間**にゼロが含まれていなければ、選択した信頼水準でグループ間に真の差がある証拠となる。しかし、ゼロが区間内に含まれている場合、その差は偶然による可能性がある。

import numpy as np
from scipy import stats

# Confidence interval for the mean
data = [12, 14, 15, 16, 14, 13, 15, 16, 17, 18]
confidence = 0.95
mean = np.mean(data)
sem = stats.sem(data)
interval = stats.t.interval(confidence, len(data)-1, loc=mean, scale=sem)
print("Confidence interval for the mean:", interval)

# Confidence interval for a proportion
# Suppose 200 users, 54 converted (successes)
n = 200
successes = 54
p_hat = successes / n
z = stats.norm.ppf(1 - (1-confidence)/2)
se = np.sqrt(p_hat * (1 - p_hat) / n)
lower = p_hat - z * se
upper = p_hat + z * se
print("Confidence interval for the proportion:", (lower, upper))

信頼区間はA/Bテスト実験でどのように意思決定に役立つか？

データアナリスト向けの仮説検定の基礎に特化した簡潔な初心者向けコース。仮説の立案、t検定（1標本、2標本、対応あり）、z検定、カイ二乗検定、検定の前提条件、適切な統計検定の選択方法を扱います。