Impara Statistical Significance and Valori p | Fondamenti Statistici per l'A/B Testing

Scorri per mostrare il menu

La significatività statistica è un concetto fondamentale nell'A/B testing, che aiuta a determinare se le differenze osservate tra i gruppi siano probabilmente dovute al caso o riflettano un effetto reale. Quando si esegue un test A/B, si confrontano metriche (come i tassi di conversione) tra due o più gruppi. Tuttavia, osservare una differenza non significa necessariamente che sia significativa; la variazione casuale può generare differenze apparenti anche in assenza di un vero effetto.

Qui entra in gioco il concetto di p-value. Il p-value misura la probabilità di ottenere risultati estremi come quelli osservati, assumendo che in realtà non ci sia differenza tra i gruppi (cioè che l'"ipotesi nulla" sia vera). Un p-value basso suggerisce che un risultato così estremo sarebbe molto improbabile se non ci fosse davvero alcun effetto, fornendo quindi evidenza contro l'ipotesi nulla.

Interpretazione corretta:

Un p-value di 0,03 significa che, se non ci fosse una vera differenza, ci sarebbe una probabilità del 3% di osservare una differenza pari o superiore a quella rilevata.

Interpretazione errata:

Un p-value di 0,03 non significa che c'è una probabilità del 97% che il risultato sia reale;
Un p-value non indica la probabilità che l'ipotesi nulla sia vera o falsa.

Supponiamo di eseguire un test A/B confrontando il click-through rate (CTR) di due versioni di un sito web. Se si osserva un p-value di 0,01, questo suggerisce che una tale differenza si verificherebbe raramente per puro caso, e si può concludere che la nuova versione si comporta in modo diverso. Tuttavia, se il p-value è 0,50, la differenza osservata è probabilmente dovuta alla variazione casuale e non si può affermare che esista un effetto reale.

Tra gli errori comuni vi è la convinzione che un p-value basso garantisca un'importanza pratica o che un risultato non significativo dimostri l'assenza di un effetto. In realtà, la significatività statistica riguarda solo la probabilità che il risultato osservato sia dovuto al caso, non se l'effetto sia grande, utile o importante.


              12345678910111213141516171819202122232425262728293031323334
            
import numpy as np
from scipy import stats

# Example: A/B test comparing conversion rates
# Group A: 1000 users, 120 converted
# Group B: 1000 users, 150 converted

# Conversion rates
conv_a = 120 / 1000
conv_b = 150 / 1000

# Number of successes and trials
success_a, n_a = 120, 1000
success_b, n_b = 150, 1000

# Calculating pooled probability
p_pool = (success_a + success_b) / (n_a + n_b)

# Standard error
se = np.sqrt(p_pool * (1 - p_pool) * (1/n_a + 1/n_b))

# Z-score
z = (conv_b - conv_a) / se

# Two-tailed p-value
p_value = 2 * (1 - stats.norm.cdf(abs(z)))

print(f"Conversion rate A: {conv_a:.3f}")
print(f"Conversion rate B: {conv_b:.3f}")
print(f"Z-score: {z:.2f}")
print(f"P-value: {p_value:.4f}")

# Interpretation:
# If p-value < 0.05, result is considered statistically significant.

Definizione

Uno z-score misura di quante deviazioni standard un'osservazione o un dato si discosta dalla media di una distribuzione. Nei test di ipotesi, lo z-score viene utilizzato per determinare quanto sia estrema la differenza osservata rispetto a quanto ci si aspetterebbe sotto l'ipotesi nulla. Un valore assoluto di z-score più elevato indica una differenza più significativa, aiutando a valutare se il risultato sia probabilmente dovuto al caso o rappresenti un effetto reale.

La soglia più comune per la significatività statistica è 0,05. Se il tuo p-value è inferiore a questa soglia, solitamente si afferma che il risultato è "statisticamente significativo" - cioè che l'evidenza contro l'ipotesi nulla è sufficientemente forte da poterla rifiutare. Tuttavia, la scelta della soglia è arbitraria e dovrebbe essere valutata nel contesto del tuo test.

È importante ricordare i limiti dei p-value:

Un p-value indica solo quanto sarebbe sorprendente osservare i tuoi dati se non ci fosse alcun effetto; non misura la grandezza o l'importanza di un effetto;
La significatività statistica non garantisce significatività pratica o impatto sul business;
I p-value possono essere fuorvianti se la dimensione del campione è troppo piccola o troppo grande, o se vengono eseguiti più test senza correzione.

Interpreta sempre i p-value insieme ad altre metriche, come la dimensione dell'effetto e gli intervalli di confidenza, e sii cauto nel trarre conclusioni forti basandoti solo sulla significatività statistica.

Tutto è chiaro?

Grazie per i tuoi commenti!

Sezione 3. Capitolo 1

Chieda ad AI

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Sezione 3. Capitolo 1