Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
学ぶ サンプルサイズの基本 | セクション
検定の基礎

サンプルサイズの基本

メニューを表示するにはスワイプしてください

適切なサンプルサイズを決定する方法の理解は、信頼性の高いA/Bテストのための重要な基礎。選択したサンプルサイズは、実験結果の妥当性に直接影響。サンプルが小さすぎる場合、コントロール群と処置群の間に意味のある差が存在しても、それを検出するのに十分なデータが得られない可能性がある。一方、過度に大きなサンプルを使用すると、リソースや時間の無駄につながる。適切なサンプルサイズは効率性と信頼できる結論を導く能力のバランスを取り、これは**統計的検出力(statistical power)**と密接に関連。

A/Bテストの正しいサンプルサイズを決定する際に影響する主な要素:

  • 効果量(effect size):検出したいグループ間の最小差。効果量が小さいほど、信頼して検出するためにより大きなサンプルサイズが必要;
  • 有意水準(significance level, alpha):差が存在しないのに存在すると誤って結論付ける確率(偽陽性)。一般的にalphaは0.05に設定;
  • 統計的検出力(statistical power, 1 - beta):実際の差を正しく検出する確率。高い検出力(通常0.8または80%以上)はより大きなサンプルサイズを必要とする;
  • ばらつき(variability):データの自然な変動量。標準偏差で測定されることが多い。ばらつきが大きいほど、実際の効果とランダムノイズを区別するためにより大きなサンプルが必要。

実際には、数式やオンライン計算機を使って必要なサンプルサイズを推定可能。2つの割合(例:コンバージョン率)を比較する場合、一般的な数式は:

n=2×[(Z1α/2+Z1β)2×p×(1p)]/d2n = 2 × [(Z_{1-\alpha/2} + Z_{1-\beta})^2 × p × (1 - p)] / d^2

ここで:

  • nn:各グループのサンプルサイズ;
  • Z1α/2Z_{1-\alpha/2}:選択した有意水準のzスコア;
  • Z1βZ_{1-\beta}:選択した検出力のzスコア;
  • pp:推定されるベースラインのコンバージョン率;
  • dd:最小検出効果(関心のあるコンバージョン率の差)。

例: 現在のコンバージョン率が10%、2%の絶対的な増加を検出したい場合、検出力80%、有意水準5%で、これらの値を数式に代入して必要なサンプルサイズを計算。

scipy.statsのようなPythonライブラリを使って、これらの計算をプログラムで実行することも可能。これにより、A/Bテストが信頼性の高い実用的な結果をもたらすよう設計できる。

12345678910111213141516171819202122232425
from scipy.stats import norm import math # Set parameters for the A/B test baseline_rate = 0.10 # current conversion rate (10%) min_effect = 0.02 # minimum detectable effect (2%) alpha = 0.05 # significance level (5%) power = 0.8 # desired statistical power (80%) # Calculate z-scores for alpha and power z_alpha = norm.ppf(1 - alpha / 2) z_beta = norm.ppf(power) # Average conversion rate under null hypothesis p = baseline_rate d = min_effect # Sample size formula for two proportions (per group) n = 2 * ((z_alpha + z_beta)**2) * p * (1 - p) / d**2 # Round up to nearest whole number n = math.ceil(n) print(f"Required sample size per group: {n}")
Note
定義

統計的検出力とは、効果が存在する場合に実験がそれを検出できる確率。A/Bテストにおいて、高い統計的検出力は、バリアント間の実際の差を観測できる可能性が高くなり、真の改善や変化を見逃すリスクを低減。

question mark

サンプルサイズが小さすぎる(すなわち、検出力が不足している)状態でA/Bテストを実施すると、どのようなことが起こり得ますか?

正しい答えを選んでください

すべて明確でしたか?

どのように改善できますか?

フィードバックありがとうございます!

セクション 1.  17

AIに質問する

expand

AIに質問する

ChatGPT

何でも質問するか、提案された質問の1つを試してチャットを始めてください

セクション 1.  17
some-alt