Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Вивчайте Статистична Значущість та P-Значення | Статистичні Основи Для A/B Тестування
A/B Тестування з Python

Статистична Значущість та P-Значення

Свайпніть щоб показати меню

Статистична значущість є базовим поняттям у A/B тестуванні, що допомагає визначити, чи спостережувані відмінності між групами зумовлені випадковістю або відображають реальний ефект. Під час проведення A/B тесту порівнюються метрики (наприклад, коефіцієнти конверсії) між двома або більше групами. Однак сама наявність різниці ще не означає її значущість; випадкові коливання можуть створювати видимі відмінності навіть за відсутності справжнього ефекту.

У цьому контексті з'являється поняття p-значення. P-значення вимірює ймовірність отримання таких же або ще більш екстремальних результатів, якщо насправді різниці між групами немає (тобто, якщо "нульова гіпотеза" є істинною). Низьке p-значення свідчить про те, що подібний екстремальний результат був би дуже малоймовірним за відсутності ефекту, що є аргументом проти нульової гіпотези.

Правильне трактування:

  • P-значення 0,03 означає, що за відсутності справжньої різниці існує 3% ймовірності спостерігати таку ж (або більшу) різницю, як отримана.

Неправильне трактування:

  • P-значення 0,03 не означає, що існує 97% ймовірності, що ваш результат є реальним;
  • P-значення не вказує на ймовірність істинності або хибності нульової гіпотези.

Припустимо, ви проводите A/B тестування, порівнюючи коефіцієнт кліків (CTR) двох версій сайту. Якщо ви отримали p-значення 0,01, це свідчить, що така різниця рідко виникає випадково, і можна зробити висновок, що нова версія працює інакше. Однак якщо p-значення становить 0,50, спостережувана різниця, ймовірно, зумовлена випадковими коливаннями, і стверджувати про реальний ефект не можна.

Поширені хибні уявлення включають думку, що мале p-значення гарантує практичну важливість, або що незначущий результат доводить відсутність ефекту. Насправді статистична значущість лише вказує на ймовірність того, що спостережуваний результат зумовлений випадковістю, а не на розмір, корисність чи важливість ефекту.

12345678910111213141516171819202122232425262728293031323334
import numpy as np from scipy import stats # Example: A/B test comparing conversion rates # Group A: 1000 users, 120 converted # Group B: 1000 users, 150 converted # Conversion rates conv_a = 120 / 1000 conv_b = 150 / 1000 # Number of successes and trials success_a, n_a = 120, 1000 success_b, n_b = 150, 1000 # Calculating pooled probability p_pool = (success_a + success_b) / (n_a + n_b) # Standard error se = np.sqrt(p_pool * (1 - p_pool) * (1/n_a + 1/n_b)) # Z-score z = (conv_b - conv_a) / se # Two-tailed p-value p_value = 2 * (1 - stats.norm.cdf(abs(z))) print(f"Conversion rate A: {conv_a:.3f}") print(f"Conversion rate B: {conv_b:.3f}") print(f"Z-score: {z:.2f}") print(f"P-value: {p_value:.4f}") # Interpretation: # If p-value < 0.05, result is considered statistically significant.
Note
Визначення

Z-значення вимірює, на скільки стандартних відхилень спостереження або точка даних відрізняється від середнього значення розподілу. У гіпотезному тестуванні z-значення використовується для визначення того, наскільки екстремальною є спостережувана різниця порівняно з очікуваною за нульової гіпотези. Більше абсолютне z-значення вказує на більш значущу різницю, допомагаючи оцінити, чи результат, ймовірно, зумовлений випадковістю, чи відображає реальний ефект.

Найпоширеніший поріг для статистичної значущості — 0,05. Якщо ваш p-значення нижче цього порогу, зазвичай говорять, що результат є «статистично значущим» — тобто докази проти нульової гіпотези достатньо сильні, щоб її відхилити. Однак вибір порогу є довільним і має розглядатися в контексті вашого тесту.

Важливо пам’ятати про обмеження p-значень:

  • P-значення лише показує, наскільки несподіваними були б ваші дані за відсутності ефекту; воно не вимірює величину чи важливість ефекту;
  • Статистична значущість не гарантує практичної значущості чи бізнес-ефекту;
  • P-значення можуть бути оманливими, якщо розмір вибірки занадто малий або занадто великий, або якщо виконується багато тестів без коригування.

Завжди інтерпретуйте p-значення разом з іншими метриками, такими як розмір ефекту та довірчі інтервали, і будьте обережні з висновками, що ґрунтуються лише на статистичній значущості.

question mark

Яке з наведеного є правильним трактуванням p-значення 0,04 в A/B тесті?

Виберіть правильну відповідь

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 3. Розділ 1

Запитати АІ

expand

Запитати АІ

ChatGPT

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Секція 3. Розділ 1
some-alt