Aprende Errores de tipo I y tipo II | Fundamentos Estadísticos para Pruebas A/B

Desliza para mostrar el menú

Comprender los tipos de errores es fundamental para interpretar los resultados de las pruebas A/B. En las pruebas de hipótesis, un error de Tipo I ocurre cuando se rechaza incorrectamente una hipótesis nula verdadera, también llamado falso positivo. Esto significa que se concluye que existe una diferencia cuando, en realidad, no la hay. Por ejemplo, si realizas una prueba A/B para ver si un nuevo color de botón aumenta los clics y encuentras un resultado estadísticamente significativo solo por azar (aunque el nuevo color no tenga un efecto real), has cometido un error de Tipo I.

Un error de Tipo II ocurre cuando no se rechaza una hipótesis nula falsa, conocido como falso negativo. Esto significa que se pasa por alto un efecto real. Imagina que tu nueva funcionalidad realmente aumenta la participación de los usuarios, pero tu prueba no detecta esta mejora, quizás porque el tamaño de la muestra es demasiado pequeño o la prueba no es lo suficientemente sensible. En este caso, has cometido un error de Tipo II.

Los escenarios del mundo real ayudan a ilustrar estos errores:

Error de Tipo I (falso positivo): Lanzar un nuevo flujo de compra basado en una prueba que indicó incorrectamente una mayor conversión, lo que lleva a un desperdicio de recursos de desarrollo;
Error de Tipo II (falso negativo): Perder una oportunidad valiosa al no implementar una funcionalidad que realmente mejora la retención, porque la prueba no detectó su efecto.


              123456789101112131415161718192021222324
            
import numpy as np

# Simulating 10,000 A/B tests where there is actually no effect (null hypothesis true)
np.random.seed(42)
n_tests = 10000
alpha = 0.05  # significance level

# Simulating p-values uniformly distributed between 0 and 1 (no true effect)
p_values = np.random.uniform(0, 1, n_tests)

# Type I error: proportion of tests where p-value < alpha (false positives)
type1_errors = np.sum(p_values < alpha)
type1_error_rate = type1_errors / n_tests

print(f"Type I error rate (alpha={alpha}): {type1_error_rate:.3f}")

# Simulating 10,000 A/B tests where there IS a real effect (null hypothesis false)
# Assume power = 0.8 (80% chance to detect the effect)
power = 0.8
# 80% of tests yield p < alpha (true positives), 20% yield p >= alpha (false negatives)
false_negatives = int((1 - power) * n_tests)
type2_error_rate = false_negatives / n_tests

print(f"Type II error rate (beta={1 - power}): {type2_error_rate:.3f}")

Existe una compensación entre el nivel de significancia (alpha), la potencia (1 - beta) y las tasas de error. Disminuir alpha reduce la probabilidad de errores de Tipo I, pero aumenta el riesgo de errores de Tipo II. Aumentar el tamaño de la muestra o el tamaño del efecto puede incrementar la potencia, reduciendo los errores de Tipo II. Las estrategias para minimizar errores incluyen:

Elegir un nivel de significancia apropiado según el riesgo empresarial;
Asegurar un tamaño de muestra adecuado para detectar efectos significativos;
Pre-registrar hipótesis para evitar el "p-hacking";
Realizar análisis de sensibilidad para comprender el impacto de diferentes umbrales.

Equilibrar estos factores ayuda a tomar decisiones más confiables a partir de tus pruebas A/B.

¿Todo estuvo claro?

¡Gracias por tus comentarios!

Sección 3. Capítulo 2

Pregunte a AI

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Sección 3. Capítulo 2