Aprende Significancia Estadística y Valores P | Fundamentos Estadísticos para Pruebas A/B

Desliza para mostrar el menú

La significancia estadística es un concepto fundamental en las pruebas A/B, que ayuda a determinar si las diferencias observadas entre grupos se deben probablemente al azar o reflejan un efecto real. Al realizar una prueba A/B, se comparan métricas (como tasas de conversión) entre dos o más grupos. Sin embargo, observar una diferencia no significa necesariamente que sea significativa; la variación aleatoria puede generar diferencias aparentes incluso cuando no existe un efecto real.

Aquí es donde entra el concepto de valor p. El valor p mide la probabilidad de obtener resultados tan extremos como los observados, asumiendo que en realidad no hay diferencia entre los grupos (es decir, que la "hipótesis nula" es verdadera). Un valor p bajo sugiere que un resultado tan extremo sería muy poco probable si realmente no existiera un efecto, proporcionando evidencia en contra de la hipótesis nula.

Interpretación correcta:

Un valor p de 0.03 significa que, si no hubiera una diferencia real, existe un 3% de probabilidad de observar una diferencia tan grande (o mayor) que la observada.

Interpretación incorrecta:

Un valor p de 0.03 no significa que hay un 97% de probabilidad de que tu resultado sea real;
Un valor p no indica la probabilidad de que la hipótesis nula sea verdadera o falsa.

Supón que realizas una prueba A/B comparando la tasa de clics (CTR) de dos versiones de un sitio web. Si observas un valor p de 0.01, esto sugiere que tal diferencia rara vez ocurriría solo por azar, y puedes concluir que la nueva versión tiene un desempeño diferente. Sin embargo, si el valor p es 0.50, la diferencia observada probablemente se deba a la variación aleatoria y no puedes afirmar que existe un efecto real.

Algunos conceptos erróneos comunes incluyen creer que un valor p pequeño garantiza importancia práctica o que un resultado no significativo prueba que no hay efecto. En realidad, la significancia estadística solo aborda la probabilidad de que el resultado observado se deba al azar, no si el efecto es grande, útil o importante.


              12345678910111213141516171819202122232425262728293031323334
            
import numpy as np
from scipy import stats

# Example: A/B test comparing conversion rates
# Group A: 1000 users, 120 converted
# Group B: 1000 users, 150 converted

# Conversion rates
conv_a = 120 / 1000
conv_b = 150 / 1000

# Number of successes and trials
success_a, n_a = 120, 1000
success_b, n_b = 150, 1000

# Calculating pooled probability
p_pool = (success_a + success_b) / (n_a + n_b)

# Standard error
se = np.sqrt(p_pool * (1 - p_pool) * (1/n_a + 1/n_b))

# Z-score
z = (conv_b - conv_a) / se

# Two-tailed p-value
p_value = 2 * (1 - stats.norm.cdf(abs(z)))

print(f"Conversion rate A: {conv_a:.3f}")
print(f"Conversion rate B: {conv_b:.3f}")
print(f"Z-score: {z:.2f}")
print(f"P-value: {p_value:.4f}")

# Interpretation:
# If p-value < 0.05, result is considered statistically significant.

Definición

Un z-score mide cuántas desviaciones estándar se encuentra una observación o dato respecto a la media de una distribución. En las pruebas de hipótesis, se utiliza el z-score para determinar cuán extrema es la diferencia observada en comparación con lo que se espera bajo la hipótesis nula. Un z-score absoluto más alto indica una diferencia más significativa, ayudando a evaluar si el resultado probablemente se debe al azar o representa un efecto real.

El umbral más común para la significancia estadística es 0.05. Si tu valor p está por debajo de este umbral, normalmente se dice que el resultado es "estadísticamente significativo", lo que significa que la evidencia contra la hipótesis nula es lo suficientemente fuerte como para rechazarla. Sin embargo, la elección del umbral es arbitraria y debe considerarse en el contexto de tu prueba.

Es importante recordar las limitaciones de los valores p:

Un valor p solo indica cuán sorprendente serían tus datos si no hubiera efecto; no mide la magnitud ni la importancia de un efecto;
La significancia estadística no garantiza relevancia práctica ni impacto en el negocio;
Los valores p pueden ser engañosos si el tamaño de la muestra es demasiado pequeño o demasiado grande, o si se realizan múltiples pruebas sin ajuste.

Siempre interpreta los valores p junto con otras métricas, como el tamaño del efecto y los intervalos de confianza, y ten precaución al sacar conclusiones sólidas solo a partir de la significancia estadística.

¿Todo estuvo claro?

¡Gracias por tus comentarios!

Sección 3. Capítulo 1

Pregunte a AI

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Sección 3. Capítulo 1