Lære Statistisk signifikans og p-verdier | Statistiske Grunnlag for A/B-testing

Sveip for å vise menyen

Statistisk signifikans er et grunnleggende begrep i A/B-testing, og hjelper deg å avgjøre om observerte forskjeller mellom grupper sannsynligvis skyldes tilfeldigheter eller reflekterer en reell effekt. Når du gjennomfører en A/B-test, sammenligner du måleverdier (som konverteringsrate) mellom to eller flere grupper. Det å observere en forskjell betyr imidlertid ikke nødvendigvis at den er meningsfull; tilfeldige variasjoner kan skape tilsynelatende forskjeller selv om det ikke finnes noen reell effekt.

Dette er hvor begrepet p-verdi kommer inn. P-verdien måler sannsynligheten for å oppnå resultater som er like ekstreme som de observerte, gitt at det faktisk ikke er noen forskjell mellom gruppene (at "nullhypotesen" er sann). En lav p-verdi antyder at et så ekstremt resultat ville vært svært usannsynlig dersom det virkelig ikke var noen effekt, og gir dermed bevis mot nullhypotesen.

Korrekt tolkning:

En p-verdi på 0,03 betyr at, dersom det ikke var noen reell forskjell, er det 3 % sannsynlighet for å se en forskjell som er like stor (eller større) enn den som er observert.

Feil tolkning:

En p-verdi på 0,03 betyr ikke at det er 97 % sjanse for at resultatet ditt er reelt;
En p-verdi forteller deg ikke sannsynligheten for at nullhypotesen er sann eller usann.

Anta at du gjennomfører en A/B-test der du sammenligner klikkrate (CTR) for to versjoner av et nettsted. Hvis du observerer en p-verdi på 0,01, antyder dette at en slik forskjell sjelden ville oppstått ved tilfeldighet alene, og du kan konkludere med at den nye versjonen presterer annerledes. Men hvis p-verdien er 0,50, er den observerte forskjellen sannsynligvis et resultat av tilfeldig variasjon, og du kan ikke hevde at det finnes en reell effekt.

Vanlige misforståelser inkluderer å tro at en lav p-verdi garanterer praktisk betydning, eller at et ikke-signifikant resultat beviser at det ikke finnes noen effekt. I virkeligheten sier statistisk signifikans kun noe om sannsynligheten for at det observerte resultatet skyldes tilfeldigheter, ikke om effekten er stor, nyttig eller viktig.


              12345678910111213141516171819202122232425262728293031323334
            
import numpy as np
from scipy import stats

# Example: A/B test comparing conversion rates
# Group A: 1000 users, 120 converted
# Group B: 1000 users, 150 converted

# Conversion rates
conv_a = 120 / 1000
conv_b = 150 / 1000

# Number of successes and trials
success_a, n_a = 120, 1000
success_b, n_b = 150, 1000

# Calculating pooled probability
p_pool = (success_a + success_b) / (n_a + n_b)

# Standard error
se = np.sqrt(p_pool * (1 - p_pool) * (1/n_a + 1/n_b))

# Z-score
z = (conv_b - conv_a) / se

# Two-tailed p-value
p_value = 2 * (1 - stats.norm.cdf(abs(z)))

print(f"Conversion rate A: {conv_a:.3f}")
print(f"Conversion rate B: {conv_b:.3f}")
print(f"Z-score: {z:.2f}")
print(f"P-value: {p_value:.4f}")

# Interpretation:
# If p-value < 0.05, result is considered statistically significant.

Definisjon

En z-score måler hvor mange standardavvik en observasjon eller datapunkt er fra gjennomsnittet i en fordeling. I hypotesetesting bruker du z-score for å avgjøre hvor ekstrem den observerte forskjellen er sammenlignet med det som forventes under nullhypotesen. En høyere absolutt z-score indikerer en mer signifikant forskjell, og hjelper deg å vurdere om resultatet sannsynligvis skyldes tilfeldigheter eller representerer en reell effekt.

Den vanligste terskelen for statistisk signifikans er 0,05. Hvis p-verdien din er under denne terskelen, sier man vanligvis at resultatet er "statistisk signifikant" – det vil si at bevisene mot nullhypotesen er sterke nok til å forkaste den. Valg av terskel er imidlertid vilkårlig og bør vurderes i sammenheng med testen din.

Det er viktig å huske begrensningene ved p-verdier:

En p-verdi forteller kun hvor overraskende dataene dine ville vært hvis det ikke var noen effekt; den måler ikke størrelsen eller viktigheten av en effekt;
Statistisk signifikans garanterer ikke praktisk betydning eller forretningsmessig effekt;
P-verdier kan være misvisende hvis utvalgsstørrelsen er for liten eller for stor, eller hvis flere tester gjennomføres uten justering.

Tolk alltid p-verdier sammen med andre målinger, som effektstørrelse og konfidensintervaller, og vær forsiktig med å trekke sterke konklusjoner kun basert på statistisk signifikans.

Alt var klart?

Takk for tilbakemeldingene dine!

Seksjon 3. Kapittel 1

Spør AI

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Seksjon 3. Kapittel 1