学ぶ第I種過誤と第II種過誤 | A/Bテストの統計的基礎

メニューを表示するにはスワイプしてください

エラーの種類を理解することは、A/Bテストの結果を解釈する上で重要です。仮説検定において、第I種の誤りは、真の帰無仮説を誤って棄却する場合に発生し、偽陽性とも呼ばれます。これは、実際には差が存在しないのに、差があると結論付けてしまうことを意味します。例えば、新しいボタンの色がクリック数を増やすかどうかA/Bテストを実施し、実際には効果がないにもかかわらず偶然統計的有意差が出た場合、第I種の誤りを犯したことになります。

第II種の誤りは、偽の帰無仮説を棄却できなかった場合に発生し、偽陰性とも呼ばれます。これは、実際の効果を見逃してしまうことを意味します。たとえば、新機能が実際にはユーザーエンゲージメントを高めているのに、サンプルサイズが小さい、またはテストの感度が十分でないためにその改善を検出できなかった場合、第II種の誤りを犯したことになります。

現実のシナリオでこれらの誤りを説明すると：

第I種の誤り（偽陽性）: テストで誤って高いコンバージョン率が示されたために新しいチェックアウトフローを導入し、開発リソースが無駄になるケース；
第II種の誤り（偽陰性）: 実際にはリテンションを改善する機能をテストで検出できず、価値ある機会を逃してしまうケース。


              123456789101112131415161718192021222324
            
import numpy as np

# Simulating 10,000 A/B tests where there is actually no effect (null hypothesis true)
np.random.seed(42)
n_tests = 10000
alpha = 0.05  # significance level

# Simulating p-values uniformly distributed between 0 and 1 (no true effect)
p_values = np.random.uniform(0, 1, n_tests)

# Type I error: proportion of tests where p-value < alpha (false positives)
type1_errors = np.sum(p_values < alpha)
type1_error_rate = type1_errors / n_tests

print(f"Type I error rate (alpha={alpha}): {type1_error_rate:.3f}")

# Simulating 10,000 A/B tests where there IS a real effect (null hypothesis false)
# Assume power = 0.8 (80% chance to detect the effect)
power = 0.8
# 80% of tests yield p < alpha (true positives), 20% yield p >= alpha (false negatives)
false_negatives = int((1 - power) * n_tests)
type2_error_rate = false_negatives / n_tests

print(f"Type II error rate (beta={1 - power}): {type2_error_rate:.3f}")

有意水準（alpha）、検出力（1 - beta）、およびエラー率の間にはトレードオフがあります。alphaを下げると第I種の誤りの可能性は減りますが、第II種の誤りのリスクが高まります。サンプルサイズや効果量を増やすことで検出力が向上し、第II種の誤りを減らすことができます。エラーを最小限に抑えるための戦略には、以下が含まれます：

ビジネスリスクに基づいた適切な有意水準の選択；
意味のある効果を検出するための十分なサンプルサイズの確保；
仮説の事前登録による「pハッキング」の回避；
さまざまな閾値の影響を理解するための感度分析の実施。

これらの要素のバランスを取ることで、A/Bテストからより信頼性の高い意思決定が可能になります。

すべて明確でしたか？

フィードバックありがとうございます！

セクション 3. 章 2

AIに質問する

何でも質問するか、提案された質問の1つを試してチャットを始めてください

セクション 3. 章 2