Lære Statistisk Signifikans og P-værdier | Statistiske Grundlag for A/B-testning

Stryg for at vise menuen

Statistisk signifikans er et grundlæggende begreb i A/B-testning, der hjælper med at afgøre, om observerede forskelle mellem grupper sandsynligvis skyldes tilfældigheder eller afspejler en reel effekt. Når du udfører en A/B-test, sammenlignes målinger (såsom konverteringsrater) mellem to eller flere grupper. Det at observere en forskel betyder dog ikke nødvendigvis, at den er meningsfuld; tilfældige variationer kan skabe tilsyneladende forskelle, selv når der ikke er nogen reel effekt.

Her kommer begrebet p-værdi ind i billedet. P-værdien måler sandsynligheden for at opnå resultater, der er lige så ekstreme som de observerede, under antagelse af, at der faktisk ikke er nogen forskel mellem grupperne (at "nulhypotesen" er sand). En lav p-værdi antyder, at et så ekstremt resultat ville være meget usandsynligt, hvis der virkelig ikke var nogen effekt, hvilket giver bevis imod nulhypotesen.

Korrekt fortolkning:

En p-værdi på 0,03 betyder, at hvis der ikke var nogen reel forskel, er der 3% sandsynlighed for at se en forskel så stor (eller større) end den observerede.

Forkert fortolkning:

En p-værdi på 0,03 betyder ikke, at der er 97% sandsynlighed for, at dit resultat er reelt;
En p-værdi fortæller ikke sandsynligheden for, at nulhypotesen er sand eller falsk.

Antag, at du udfører en A/B-test, hvor du sammenligner klikrate (CTR) for to versioner af et website. Hvis du observerer en p-værdi på 0,01, antyder det, at en sådan forskel sjældent ville opstå ved tilfældigheder alene, og du kan konkludere, at den nye version præsterer anderledes. Hvis p-værdien derimod er 0,50, skyldes den observerede forskel sandsynligvis tilfældig variation, og du kan ikke påstå, at der er en reel effekt.

Almindelige misforståelser inkluderer at tro, at en lille p-værdi garanterer praktisk betydning, eller at et ikke-signifikant resultat beviser, at der ikke er nogen effekt. I virkeligheden siger statistisk signifikans kun noget om sandsynligheden for, at det observerede resultat skyldes tilfældigheder, ikke om effekten er stor, nyttig eller vigtig.


              12345678910111213141516171819202122232425262728293031323334
            
import numpy as np
from scipy import stats

# Example: A/B test comparing conversion rates
# Group A: 1000 users, 120 converted
# Group B: 1000 users, 150 converted

# Conversion rates
conv_a = 120 / 1000
conv_b = 150 / 1000

# Number of successes and trials
success_a, n_a = 120, 1000
success_b, n_b = 150, 1000

# Calculating pooled probability
p_pool = (success_a + success_b) / (n_a + n_b)

# Standard error
se = np.sqrt(p_pool * (1 - p_pool) * (1/n_a + 1/n_b))

# Z-score
z = (conv_b - conv_a) / se

# Two-tailed p-value
p_value = 2 * (1 - stats.norm.cdf(abs(z)))

print(f"Conversion rate A: {conv_a:.3f}")
print(f"Conversion rate B: {conv_b:.3f}")
print(f"Z-score: {z:.2f}")
print(f"P-value: {p_value:.4f}")

# Interpretation:
# If p-value < 0.05, result is considered statistically significant.

Definition

En z-score måler, hvor mange standardafvigelser en observation eller datapunkt ligger fra gennemsnittet af en fordeling. Ved hypotesetest bruges z-score til at afgøre, hvor ekstrem din observerede forskel er sammenlignet med, hvad der forventes under nulhypotesen. En højere absolut z-score indikerer en mere signifikant forskel og hjælper med at vurdere, om resultatet sandsynligvis skyldes tilfældigheder eller repræsenterer en reel effekt.

Den mest almindelige tærskel for statistisk signifikans er 0,05. Hvis din p-værdi er under denne tærskel, siger man typisk, at resultatet er "statistisk signifikant" – hvilket betyder, at beviserne imod nulhypotesen er stærke nok til at forkaste den. Valget af tærskel er dog vilkårligt og bør overvejes i konteksten af din test.

Det er vigtigt at huske begrænsningerne ved p-værdier:

En p-værdi fortæller kun, hvor overraskende dine data ville være, hvis der ikke var nogen effekt; den måler ikke størrelsen eller vigtigheden af en effekt;
Statistisk signifikans garanterer ikke praktisk betydning eller forretningsmæssig effekt;
P-værdier kan være misvisende, hvis stikprøvestørrelsen er for lille eller for stor, eller hvis der udføres flere tests uden justering.

Fortolk altid p-værdier sammen med andre målinger, såsom effektstørrelse og konfidensintervaller, og vær forsigtig med at drage stærke konklusioner alene ud fra statistisk signifikans.

Var alt klart?

Tak for dine kommentarer!

Sektion 3. Kapitel 1

Spørg AI

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Sektion 3. Kapitel 1