Lära Type I- och Type II-fel | Statistiska Grunder för A/B-testning

Svep för att visa menyn

Att förstå feltyper är avgörande för att tolka resultat från A/B-tester. Inom hypotesprövning uppstår ett typ I-fel när du felaktigt förkastar en sann nollhypotes, även kallat ett falskt positivt. Det innebär att du drar slutsatsen att det finns en skillnad när det i själva verket inte gör det. Till exempel, om du genomför ett A/B-test för att se om en ny knappfärg ökar antalet klick och du får ett statistiskt signifikant resultat av en slump (även om den nya färgen inte har någon verklig effekt), har du gjort ett typ I-fel.

Ett typ II-fel inträffar när du inte förkastar en falsk nollhypotes, känt som ett falskt negativt. Det innebär att du missar en verklig effekt. Föreställ dig att din nya funktion faktiskt ökar användarengagemanget, men att ditt test misslyckas med att upptäcka denna förbättring – kanske för att ditt urval är för litet eller för att testet inte är tillräckligt känsligt. I detta fall har du gjort ett typ II-fel.

Exempel från verkligheten illustrerar dessa fel:

Typ I-fel (falskt positivt): Lansering av ett nytt kassaflöde baserat på ett test som felaktigt indikerade högre konvertering, vilket leder till bortkastade utvecklingsresurser;
Typ II-fel (falskt negativt): Missad möjlighet genom att inte lansera en funktion som faktiskt förbättrar retentionen, eftersom testet inte upptäckte dess effekt.


              123456789101112131415161718192021222324
            
import numpy as np

# Simulating 10,000 A/B tests where there is actually no effect (null hypothesis true)
np.random.seed(42)
n_tests = 10000
alpha = 0.05  # significance level

# Simulating p-values uniformly distributed between 0 and 1 (no true effect)
p_values = np.random.uniform(0, 1, n_tests)

# Type I error: proportion of tests where p-value < alpha (false positives)
type1_errors = np.sum(p_values < alpha)
type1_error_rate = type1_errors / n_tests

print(f"Type I error rate (alpha={alpha}): {type1_error_rate:.3f}")

# Simulating 10,000 A/B tests where there IS a real effect (null hypothesis false)
# Assume power = 0.8 (80% chance to detect the effect)
power = 0.8
# 80% of tests yield p < alpha (true positives), 20% yield p >= alpha (false negatives)
false_negatives = int((1 - power) * n_tests)
type2_error_rate = false_negatives / n_tests

print(f"Type II error rate (beta={1 - power}): {type2_error_rate:.3f}")

Det finns en avvägning mellan signifikansnivå (alpha), styrka (1 - beta) och felfrekvenser. Att sänka alpha minskar risken för typ I-fel men ökar risken för typ II-fel. Att öka urvalsstorleken eller effektsstorleken kan höja styrkan, vilket minskar typ II-fel. Strategier för att minimera fel inkluderar:

Att välja en lämplig signifikansnivå baserat på affärsrisk;
Att säkerställa tillräcklig urvalsstorlek för att upptäcka meningsfulla effekter;
Att förregistrera hypoteser för att undvika "p-hacking";
Att genomföra känslighetsanalyser för att förstå effekten av olika tröskelvärden.

Att balansera dessa faktorer hjälper dig att fatta mer tillförlitliga beslut från dina A/B-tester.

Var allt tydligt?

Tack för dina kommentarer!

Avsnitt 3. Kapitel 2

Fråga AI

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Avsnitt 3. Kapitel 2