Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Significância Estatística e Valores de P | Fundamentos Estatísticos para A/B Testing
Testes A/B com Python

Significância Estatística e Valores de P

Deslize para mostrar o menu

Significância estatística é um conceito fundamental em testes A/B, auxiliando na decisão sobre se as diferenças observadas entre grupos são provavelmente fruto do acaso ou refletem um efeito real. Ao realizar um teste A/B, comparam-se métricas (como taxas de conversão) entre dois ou mais grupos. No entanto, apenas observar uma diferença não significa que ela seja relevante; variações aleatórias podem criar diferenças aparentes mesmo quando não há efeito verdadeiro.

É nesse contexto que surge o conceito de valor-p. O valor-p mede a probabilidade de obter resultados tão extremos quanto os observados, assumindo que realmente não há diferença entre os grupos (ou seja, a "hipótese nula" é verdadeira). Um valor-p baixo sugere que tal resultado extremo seria muito improvável caso realmente não houvesse efeito, fornecendo evidências contra a hipótese nula.

Interpretação correta:

  • Um valor-p de 0,03 significa que, se não houvesse diferença real, haveria uma probabilidade de 3% de observar uma diferença tão grande (ou maior) quanto a observada.

Interpretação incorreta:

  • Um valor-p de 0,03 não significa que há 97% de chance de seu resultado ser real;
  • Um valor-p não informa a probabilidade de a hipótese nula ser verdadeira ou falsa.

Suponha que você realize um teste A/B comparando a taxa de cliques (CTR) de duas versões de um site. Se você observar um valor-p de 0,01, isso sugere que tal diferença raramente ocorreria apenas por acaso, e pode-se concluir que a nova versão apresenta desempenho diferente. Entretanto, se o valor-p for 0,50, a diferença observada provavelmente se deve à variação aleatória, e não é possível afirmar que há um efeito real.

Equívocos comuns incluem acreditar que um valor-p pequeno garante importância prática ou que um resultado não significativo prova que não há efeito. Na realidade, a significância estatística apenas indica a probabilidade de o resultado observado ser devido ao acaso, não se o efeito é grande, útil ou importante.

12345678910111213141516171819202122232425262728293031323334
import numpy as np from scipy import stats # Example: A/B test comparing conversion rates # Group A: 1000 users, 120 converted # Group B: 1000 users, 150 converted # Conversion rates conv_a = 120 / 1000 conv_b = 150 / 1000 # Number of successes and trials success_a, n_a = 120, 1000 success_b, n_b = 150, 1000 # Calculating pooled probability p_pool = (success_a + success_b) / (n_a + n_b) # Standard error se = np.sqrt(p_pool * (1 - p_pool) * (1/n_a + 1/n_b)) # Z-score z = (conv_b - conv_a) / se # Two-tailed p-value p_value = 2 * (1 - stats.norm.cdf(abs(z))) print(f"Conversion rate A: {conv_a:.3f}") print(f"Conversion rate B: {conv_b:.3f}") print(f"Z-score: {z:.2f}") print(f"P-value: {p_value:.4f}") # Interpretation: # If p-value < 0.05, result is considered statistically significant.
Note
Definição

Um z-score mede quantos desvios padrão uma observação ou ponto de dado está distante da média de uma distribuição. Em testes de hipótese, utiliza-se o z-score para determinar o quão extremo é o valor observado em comparação ao esperado sob a hipótese nula. Um z-score absoluto mais alto indica uma diferença mais significativa, auxiliando na avaliação se o resultado é provavelmente devido ao acaso ou representa um efeito real.

O limite mais comum para significância estatística é 0,05. Se o seu valor de p estiver abaixo desse limite, normalmente diz-se que o resultado é "estatisticamente significativo" - ou seja, a evidência contra a hipótese nula é forte o suficiente para rejeitá-la. No entanto, a escolha do limite é arbitrária e deve ser considerada no contexto do seu teste.

É importante lembrar as limitações dos valores de p:

  • Um valor de p apenas indica o quão surpreendente seriam seus dados se não houvesse efeito; ele não mede a magnitude ou importância de um efeito;
  • Significância estatística não garante relevância prática ou impacto nos negócios;
  • Valores de p podem ser enganosos se o tamanho da amostra for muito pequeno ou muito grande, ou se múltiplos testes forem realizados sem ajuste.

Sempre interprete valores de p juntamente com outras métricas, como tamanho do efeito e intervalos de confiança, e seja cauteloso ao tirar conclusões fortes apenas com base na significância estatística.

question mark

Qual das alternativas a seguir é a interpretação correta de um valor de p de 0,04 em um teste A/B?

Selecione a resposta correta

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 3. Capítulo 1

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Seção 3. Capítulo 1
some-alt