Lære Type I- og Type II-feil | Statistiske Grunnlag for A/B-testing

Sveip for å vise menyen

Forståelse av feiltyper er avgjørende for å tolke resultatene fra A/B-tester. I hypotesetesting oppstår en Type I-feil når du feilaktig forkaster en sann nullhypotese, også kalt en falsk positiv. Dette betyr at du konkluderer med at det finnes en forskjell når det i virkeligheten ikke gjør det. For eksempel, hvis du gjennomfører en A/B-test for å se om en ny knappfarge øker antall klikk og finner et statistisk signifikant resultat kun ved tilfeldighet (selv om den nye fargen ikke har noen reell effekt), har du gjort en Type I-feil.

En Type II-feil skjer når du ikke forkaster en falsk nullhypotese, kjent som en falsk negativ. Dette betyr at du overser en reell effekt. Tenk deg at den nye funksjonen faktisk øker brukerengasjementet, men testen din ikke klarer å oppdage denne forbedringen – kanskje fordi utvalgsstørrelsen er for liten eller testen ikke er sensitiv nok. I dette tilfellet har du gjort en Type II-feil.

Virkelige eksempler illustrerer disse feilene:

Type I-feil (falsk positiv): Lansering av et nytt utsjekkingsforløp basert på en test som feilaktig indikerte høyere konvertering, noe som fører til bortkastede utviklingsressurser;
Type II-feil (falsk negativ): Å gå glipp av en verdifull mulighet ved å ikke lansere en funksjon som faktisk forbedrer brukerbeholdningen, fordi testen ikke oppdaget effekten.


              123456789101112131415161718192021222324
            
import numpy as np

# Simulating 10,000 A/B tests where there is actually no effect (null hypothesis true)
np.random.seed(42)
n_tests = 10000
alpha = 0.05  # significance level

# Simulating p-values uniformly distributed between 0 and 1 (no true effect)
p_values = np.random.uniform(0, 1, n_tests)

# Type I error: proportion of tests where p-value < alpha (false positives)
type1_errors = np.sum(p_values < alpha)
type1_error_rate = type1_errors / n_tests

print(f"Type I error rate (alpha={alpha}): {type1_error_rate:.3f}")

# Simulating 10,000 A/B tests where there IS a real effect (null hypothesis false)
# Assume power = 0.8 (80% chance to detect the effect)
power = 0.8
# 80% of tests yield p < alpha (true positives), 20% yield p >= alpha (false negatives)
false_negatives = int((1 - power) * n_tests)
type2_error_rate = false_negatives / n_tests

print(f"Type II error rate (beta={1 - power}): {type2_error_rate:.3f}")

Det finnes en avveining mellom signifikansnivå (alpha), styrke (1 - beta) og feilrater. Å senke alpha reduserer sannsynligheten for Type I-feil, men øker risikoen for Type II-feil. Økt utvalgsstørrelse eller effektstørrelse kan øke styrken, og dermed redusere Type II-feil. Strategier for å minimere feil inkluderer:

Å velge et passende signifikansnivå basert på forretningsrisiko;
Å sikre tilstrekkelig utvalgsstørrelse for å oppdage meningsfulle effekter;
Å forhåndsregistrere hypoteser for å unngå "p-hacking";
Å gjennomføre sensitivitetsanalyser for å forstå effekten av ulike terskler.

Å balansere disse faktorene hjelper deg å ta mer pålitelige beslutninger fra A/B-tester.

Alt var klart?

Takk for tilbakemeldingene dine!

Seksjon 3. Kapittel 2

Spør AI

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Seksjon 3. Kapittel 2