学ぶ統計的有意性 | 実験とA/Bテスト

メニューを表示するにはスワイプしてください

A/Bテストを実施する際、コントロールグループとバリアントグループの間に見られる差が本物なのか、それとも単なる偶然によるものなのかを知りたいと考えます。コインを10回投げて7回表が出た場合、そのコインが不公平だと言えるでしょうか？それとも単なる運でしょうか？プロダクトアナリティクスにおいて、ここで重要になるのが統計的有意性です。これは、例えば新しいボタンをクリックするユーザーが増えたとき、その結果が意味のあるものなのか、あるいはコイン投げで表が続くような偶然によるものなのかを判断する助けとなります。


              1234567891011121314151617
            
import numpy as np
from scipy import stats

# Simulated data: daily conversions for control and variant groups
control = np.array([30, 28, 35, 33, 29, 31, 32])
variant = np.array([36, 34, 39, 37, 35, 38, 40])

# Performing independent t-test
t_stat, p_value = stats.ttest_ind(variant, control)

print("t-statistic:", t_stat)
print("p-value:", p_value)

if p_value < 0.05:
    print("Result is statistically significant: the variant performed differently from control.")
else:
    print("Result is not statistically significant: no strong evidence of a difference.")

定義

統計的有意性は、観測された差が偶然によるものではない可能性が高いことを示す指標。

統計検定から得られるp値は、観測された差と同じかそれ以上の差が、偶然だけで生じる確率を示す指標。低いp値（例えば 0.05 未満）は、結果が偶然によるものではない可能性が高く、変更が実際に影響を与えたと自信を持てることを意味する。p値が高い場合は、差が偶然によるものである可能性を否定できない。これにより、製品に関する意思決定を自信を持って行うことができる。証拠が十分に強い場合に新機能をリリースし、信頼性の低い結果に基づく行動を避けることができる。

有意水準は、一般的に α（アルファ）で表され、検定を実施する前に設定する閾値であり、偽陽性（第I種の誤り）をどの程度許容するかを示す。A/Bテストでは、実際には差がないのに偶然によって差があると誤って結論付ける確率を表す。

最も一般的な有意水準は 0.05（5%）；
これは、実際には差がないのに誤って差があると判断する確率を5%受け入れることを意味する；
有意水準を下げる（例えば 0.01 へ）は、検定をより厳格にし、偽陽性のリスクを減らすが、有意と判断するためにはより強い証拠が必要となる；
有意水準はデータの収集や分析を始める前に設定する。

実務では、p値が設定した有意水準より小さい場合、結果は統計的に有意とみなされ、実際の効果を反映している可能性が高いと判断する。p値が有意水準以上の場合、真の差があると自信を持って言うには証拠が不十分となる。適切な有意水準の設定は、製品実験における誤った意思決定のリスクをバランスよく管理するのに役立つ。

1. 仮説検定において、低いp値は何を示しますか？

2. 空欄を埋めてください：

すべて明確でしたか？

フィードバックありがとうございます！

セクション 4. 章 3

AIに質問する

何でも質問するか、提案された質問の1つを試してチャットを始めてください

セクション 4. 章 3