Aprenda Significância Estatística e Valores de P | Fundamentos Estatísticos para A/B Testing

Deslize para mostrar o menu

Significância estatística é um conceito fundamental em testes A/B, auxiliando na decisão sobre se as diferenças observadas entre grupos são provavelmente fruto do acaso ou refletem um efeito real. Ao realizar um teste A/B, comparam-se métricas (como taxas de conversão) entre dois ou mais grupos. No entanto, apenas observar uma diferença não significa que ela seja relevante; variações aleatórias podem criar diferenças aparentes mesmo quando não há efeito verdadeiro.

É nesse contexto que surge o conceito de valor-p. O valor-p mede a probabilidade de obter resultados tão extremos quanto os observados, assumindo que realmente não há diferença entre os grupos (ou seja, a "hipótese nula" é verdadeira). Um valor-p baixo sugere que tal resultado extremo seria muito improvável caso realmente não houvesse efeito, fornecendo evidências contra a hipótese nula.

Interpretação correta:

Um valor-p de 0,03 significa que, se não houvesse diferença real, haveria uma probabilidade de 3% de observar uma diferença tão grande (ou maior) quanto a observada.

Interpretação incorreta:

Um valor-p de 0,03 não significa que há 97% de chance de seu resultado ser real;
Um valor-p não informa a probabilidade de a hipótese nula ser verdadeira ou falsa.

Suponha que você realize um teste A/B comparando a taxa de cliques (CTR) de duas versões de um site. Se você observar um valor-p de 0,01, isso sugere que tal diferença raramente ocorreria apenas por acaso, e pode-se concluir que a nova versão apresenta desempenho diferente. Entretanto, se o valor-p for 0,50, a diferença observada provavelmente se deve à variação aleatória, e não é possível afirmar que há um efeito real.

Equívocos comuns incluem acreditar que um valor-p pequeno garante importância prática ou que um resultado não significativo prova que não há efeito. Na realidade, a significância estatística apenas indica a probabilidade de o resultado observado ser devido ao acaso, não se o efeito é grande, útil ou importante.


              12345678910111213141516171819202122232425262728293031323334
            
import numpy as np
from scipy import stats

# Example: A/B test comparing conversion rates
# Group A: 1000 users, 120 converted
# Group B: 1000 users, 150 converted

# Conversion rates
conv_a = 120 / 1000
conv_b = 150 / 1000

# Number of successes and trials
success_a, n_a = 120, 1000
success_b, n_b = 150, 1000

# Calculating pooled probability
p_pool = (success_a + success_b) / (n_a + n_b)

# Standard error
se = np.sqrt(p_pool * (1 - p_pool) * (1/n_a + 1/n_b))

# Z-score
z = (conv_b - conv_a) / se

# Two-tailed p-value
p_value = 2 * (1 - stats.norm.cdf(abs(z)))

print(f"Conversion rate A: {conv_a:.3f}")
print(f"Conversion rate B: {conv_b:.3f}")
print(f"Z-score: {z:.2f}")
print(f"P-value: {p_value:.4f}")

# Interpretation:
# If p-value < 0.05, result is considered statistically significant.

Definição

Um z-score mede quantos desvios padrão uma observação ou ponto de dado está distante da média de uma distribuição. Em testes de hipótese, utiliza-se o z-score para determinar o quão extremo é o valor observado em comparação ao esperado sob a hipótese nula. Um z-score absoluto mais alto indica uma diferença mais significativa, auxiliando na avaliação se o resultado é provavelmente devido ao acaso ou representa um efeito real.

O limite mais comum para significância estatística é 0,05. Se o seu valor de p estiver abaixo desse limite, normalmente diz-se que o resultado é "estatisticamente significativo" - ou seja, a evidência contra a hipótese nula é forte o suficiente para rejeitá-la. No entanto, a escolha do limite é arbitrária e deve ser considerada no contexto do seu teste.

É importante lembrar as limitações dos valores de p:

Um valor de p apenas indica o quão surpreendente seriam seus dados se não houvesse efeito; ele não mede a magnitude ou importância de um efeito;
Significância estatística não garante relevância prática ou impacto nos negócios;
Valores de p podem ser enganosos se o tamanho da amostra for muito pequeno ou muito grande, ou se múltiplos testes forem realizados sem ajuste.

Sempre interprete valores de p juntamente com outras métricas, como tamanho do efeito e intervalos de confiança, e seja cauteloso ao tirar conclusões fortes apenas com base na significância estatística.

Tudo estava claro?

Obrigado pelo seu feedback!

Seção 3. Capítulo 1

Pergunte à IA

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Seção 3. Capítulo 1