Apprendre Statistical Significance and p-values | Fondements Statistiques des Tests A/B

Glissez pour afficher le menu

La signification statistique est un concept fondamental dans les tests A/B, permettant de déterminer si les différences observées entre les groupes sont probablement dues au hasard ou reflètent un effet réel. Lorsqu’un test A/B est réalisé, on compare des métriques (telles que les taux de conversion) entre deux groupes ou plus. Cependant, constater une différence ne signifie pas nécessairement qu’elle est significative ; la variation aléatoire peut créer des différences apparentes même en l’absence d’effet réel.

C’est ici qu’intervient la notion de valeur p. La valeur p mesure la probabilité d’obtenir des résultats aussi extrêmes que ceux observés, en supposant qu’il n’existe en réalité aucune différence entre les groupes (l’« hypothèse nulle » est vraie). Une faible valeur p suggère qu’un tel résultat extrême serait très improbable s’il n’y avait réellement aucun effet, fournissant ainsi un argument contre l’hypothèse nulle.

Interprétation correcte :

Une valeur p de 0,03 signifie que, s’il n’y avait pas de différence réelle, il y aurait 3 % de probabilité d’observer une différence aussi grande (ou plus grande) que celle constatée.

Interprétation incorrecte :

Une valeur p de 0,03 ne signifie pas qu’il y a 97 % de chances que votre résultat soit réel ;
Une valeur p ne vous indique pas la probabilité que l’hypothèse nulle soit vraie ou fausse.

Supposons qu’un test A/B compare le taux de clics (CTR) de deux versions d’un site web. Si une valeur p de 0,01 est observée, cela suggère qu’une telle différence se produirait rarement par hasard, et il est possible de conclure que la nouvelle version fonctionne différemment. En revanche, si la valeur p est de 0,50, la différence observée est probablement due à la variation aléatoire, et il n’est pas possible d’affirmer qu’il existe un effet réel.

Les idées reçues courantes incluent la croyance qu’une petite valeur p garantit une importance pratique ou qu’un résultat non significatif prouve l’absence d’effet. En réalité, la signification statistique indique seulement la probabilité que le résultat observé soit dû au hasard, sans juger de l’ampleur, de l’utilité ou de l’importance de l’effet.


              12345678910111213141516171819202122232425262728293031323334
            
import numpy as np
from scipy import stats

# Example: A/B test comparing conversion rates
# Group A: 1000 users, 120 converted
# Group B: 1000 users, 150 converted

# Conversion rates
conv_a = 120 / 1000
conv_b = 150 / 1000

# Number of successes and trials
success_a, n_a = 120, 1000
success_b, n_b = 150, 1000

# Calculating pooled probability
p_pool = (success_a + success_b) / (n_a + n_b)

# Standard error
se = np.sqrt(p_pool * (1 - p_pool) * (1/n_a + 1/n_b))

# Z-score
z = (conv_b - conv_a) / se

# Two-tailed p-value
p_value = 2 * (1 - stats.norm.cdf(abs(z)))

print(f"Conversion rate A: {conv_a:.3f}")
print(f"Conversion rate B: {conv_b:.3f}")
print(f"Z-score: {z:.2f}")
print(f"P-value: {p_value:.4f}")

# Interpretation:
# If p-value < 0.05, result is considered statistically significant.

Définition

Un z-score mesure le nombre d’écarts-types qui séparent une observation ou une donnée de la moyenne d’une distribution. En test d’hypothèse, le z-score permet de déterminer à quel point la différence observée est extrême par rapport à ce qui est attendu sous l’hypothèse nulle. Un z-score absolu plus élevé indique une différence plus significative, aidant à évaluer si le résultat est probablement dû au hasard ou s’il reflète un effet réel.

Le seuil le plus courant pour la signification statistique est 0,05. Si votre p-value est inférieure à ce seuil, on considère généralement que le résultat est « statistiquement significatif » — ce qui signifie que les preuves contre l’hypothèse nulle sont suffisamment fortes pour la rejeter. Cependant, le choix du seuil est arbitraire et doit être évalué dans le contexte de votre test.

Il est important de garder à l’esprit les limites des p-values :

Une p-value indique uniquement à quel point vos données seraient surprenantes s’il n’y avait aucun effet ; elle ne mesure ni l’ampleur ni l’importance d’un effet ;
La signification statistique ne garantit pas la signification pratique ou l’impact métier ;
Les p-values peuvent être trompeuses si la taille de l’échantillon est trop petite ou trop grande, ou si plusieurs tests sont effectués sans ajustement.

Toujours interpréter les p-values en parallèle d’autres métriques, telles que la taille de l’effet et les intervalles de confiance, et rester prudent quant aux conclusions tirées uniquement de la signification statistique.

Tout était clair ?

Merci pour vos commentaires !

Section 3. Chapitre 1

Demandez à l'IA

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Section 3. Chapitre 1