Lære Type I- og Type II-fejl | Statistiske Grundlag for A/B-testning

Stryg for at vise menuen

Forståelse af fejttyper er afgørende for at kunne tolke resultaterne af A/B-tests. Ved hypotesetest opstår en Type I-fejl, når man forkert forkaster en sand nulhypotese, også kaldet et falsk positivt resultat. Dette betyder, at man konkluderer, at der er en forskel, selvom der i virkeligheden ikke er nogen. For eksempel, hvis du gennemfører en A/B-test for at se, om en ny knapfarve øger antallet af klik, og du finder et statistisk signifikant resultat udelukkende ved tilfældighed (selvom den nye farve ikke har nogen reel effekt), har du begået en Type I-fejl.

En Type II-fejl opstår, når man undlader at forkaste en falsk nulhypotese, kendt som et falsk negativt resultat. Dette betyder, at man overser en reel effekt. Forestil dig, at din nye funktion faktisk øger brugerengagementet, men din test ikke opdager denne forbedring – måske fordi stikprøvestørrelsen er for lille, eller testen ikke er følsom nok. I dette tilfælde har du begået en Type II-fejl.

Virkelige scenarier kan illustrere disse fejl:

Type I-fejl (falsk positiv): Lancering af et nyt checkout-flow baseret på en test, der fejlagtigt indikerede højere konvertering, hvilket fører til spildte udviklingsressourcer;
Type II-fejl (falsk negativ): At gå glip af en værdifuld mulighed ved ikke at implementere en funktion, der faktisk forbedrer fastholdelsen, fordi testen ikke opdagede dens effekt.


              123456789101112131415161718192021222324
            
import numpy as np

# Simulating 10,000 A/B tests where there is actually no effect (null hypothesis true)
np.random.seed(42)
n_tests = 10000
alpha = 0.05  # significance level

# Simulating p-values uniformly distributed between 0 and 1 (no true effect)
p_values = np.random.uniform(0, 1, n_tests)

# Type I error: proportion of tests where p-value < alpha (false positives)
type1_errors = np.sum(p_values < alpha)
type1_error_rate = type1_errors / n_tests

print(f"Type I error rate (alpha={alpha}): {type1_error_rate:.3f}")

# Simulating 10,000 A/B tests where there IS a real effect (null hypothesis false)
# Assume power = 0.8 (80% chance to detect the effect)
power = 0.8
# 80% of tests yield p < alpha (true positives), 20% yield p >= alpha (false negatives)
false_negatives = int((1 - power) * n_tests)
type2_error_rate = false_negatives / n_tests

print(f"Type II error rate (beta={1 - power}): {type2_error_rate:.3f}")

Der er en afvejning mellem signifikansniveau (alpha), power (1 - beta) og fejlrater. Sænkning af alpha reducerer sandsynligheden for Type I-fejl, men øger risikoen for Type II-fejl. Forøgelse af stikprøvestørrelse eller effektstørrelse kan øge power og dermed reducere Type II-fejl. Strategier til at minimere fejl omfatter:

Valg af et passende signifikansniveau baseret på forretningsrisiko;
Sikring af tilstrækkelig stikprøvestørrelse til at opdage meningsfulde effekter;
Præregistrering af hypoteser for at undgå "p-hacking";
Gennemførelse af følsomhedsanalyser for at forstå effekten af forskellige tærskler.

Afbalancering af disse faktorer hjælper med at træffe mere pålidelige beslutninger ud fra dine A/B-tests.

Var alt klart?

Tak for dine kommentarer!

Sektion 3. Kapitel 2

Spørg AI

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Sektion 3. Kapitel 2