Вивчайте Статистична Значущість та P-Значення | Статистичні Основи Для A/B Тестування

Свайпніть щоб показати меню

Статистична значущість є базовим поняттям у A/B тестуванні, що допомагає визначити, чи спостережувані відмінності між групами зумовлені випадковістю або відображають реальний ефект. Під час проведення A/B тесту порівнюються метрики (наприклад, коефіцієнти конверсії) між двома або більше групами. Однак сама наявність різниці ще не означає її значущість; випадкові коливання можуть створювати видимі відмінності навіть за відсутності справжнього ефекту.

У цьому контексті з'являється поняття p-значення. P-значення вимірює ймовірність отримання таких же або ще більш екстремальних результатів, якщо насправді різниці між групами немає (тобто, якщо "нульова гіпотеза" є істинною). Низьке p-значення свідчить про те, що подібний екстремальний результат був би дуже малоймовірним за відсутності ефекту, що є аргументом проти нульової гіпотези.

Правильне трактування:

P-значення 0,03 означає, що за відсутності справжньої різниці існує 3% ймовірності спостерігати таку ж (або більшу) різницю, як отримана.

Неправильне трактування:

P-значення 0,03 не означає, що існує 97% ймовірності, що ваш результат є реальним;
P-значення не вказує на ймовірність істинності або хибності нульової гіпотези.

Припустимо, ви проводите A/B тестування, порівнюючи коефіцієнт кліків (CTR) двох версій сайту. Якщо ви отримали p-значення 0,01, це свідчить, що така різниця рідко виникає випадково, і можна зробити висновок, що нова версія працює інакше. Однак якщо p-значення становить 0,50, спостережувана різниця, ймовірно, зумовлена випадковими коливаннями, і стверджувати про реальний ефект не можна.

Поширені хибні уявлення включають думку, що мале p-значення гарантує практичну важливість, або що незначущий результат доводить відсутність ефекту. Насправді статистична значущість лише вказує на ймовірність того, що спостережуваний результат зумовлений випадковістю, а не на розмір, корисність чи важливість ефекту.


              12345678910111213141516171819202122232425262728293031323334
            
import numpy as np
from scipy import stats

# Example: A/B test comparing conversion rates
# Group A: 1000 users, 120 converted
# Group B: 1000 users, 150 converted

# Conversion rates
conv_a = 120 / 1000
conv_b = 150 / 1000

# Number of successes and trials
success_a, n_a = 120, 1000
success_b, n_b = 150, 1000

# Calculating pooled probability
p_pool = (success_a + success_b) / (n_a + n_b)

# Standard error
se = np.sqrt(p_pool * (1 - p_pool) * (1/n_a + 1/n_b))

# Z-score
z = (conv_b - conv_a) / se

# Two-tailed p-value
p_value = 2 * (1 - stats.norm.cdf(abs(z)))

print(f"Conversion rate A: {conv_a:.3f}")
print(f"Conversion rate B: {conv_b:.3f}")
print(f"Z-score: {z:.2f}")
print(f"P-value: {p_value:.4f}")

# Interpretation:
# If p-value < 0.05, result is considered statistically significant.

Визначення

Z-значення вимірює, на скільки стандартних відхилень спостереження або точка даних відрізняється від середнього значення розподілу. У гіпотезному тестуванні z-значення використовується для визначення того, наскільки екстремальною є спостережувана різниця порівняно з очікуваною за нульової гіпотези. Більше абсолютне z-значення вказує на більш значущу різницю, допомагаючи оцінити, чи результат, ймовірно, зумовлений випадковістю, чи відображає реальний ефект.

Найпоширеніший поріг для статистичної значущості — 0,05. Якщо ваш p-значення нижче цього порогу, зазвичай говорять, що результат є «статистично значущим» — тобто докази проти нульової гіпотези достатньо сильні, щоб її відхилити. Однак вибір порогу є довільним і має розглядатися в контексті вашого тесту.

Важливо пам’ятати про обмеження p-значень:

P-значення лише показує, наскільки несподіваними були б ваші дані за відсутності ефекту; воно не вимірює величину чи важливість ефекту;
Статистична значущість не гарантує практичної значущості чи бізнес-ефекту;
P-значення можуть бути оманливими, якщо розмір вибірки занадто малий або занадто великий, або якщо виконується багато тестів без коригування.

Завжди інтерпретуйте p-значення разом з іншими метриками, такими як розмір ефекту та довірчі інтервали, і будьте обережні з висновками, що ґрунтуються лише на статистичній значущості.

Все було зрозуміло?

Дякуємо за ваш відгук!

Секція 3. Розділ 1

Запитати АІ

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Секція 3. Розділ 1