Lernen Type I and Type II Errors | Statistische Grundlagen Für A/B-Tests

Swipe um das Menü anzuzeigen

Das Verständnis von Fehlertypen ist entscheidend für die Interpretation von A/B-Testergebnissen. In der Hypothesentestung tritt ein Fehler 1. Art auf, wenn eine wahre Nullhypothese fälschlicherweise abgelehnt wird, auch als falsch positiv bezeichnet. Das bedeutet, dass ein Unterschied angenommen wird, obwohl in Wirklichkeit keiner existiert. Zum Beispiel: Wenn ein A/B-Test durchgeführt wird, um zu prüfen, ob eine neue Button-Farbe die Klickrate erhöht, und ein statistisch signifikantes Ergebnis nur zufällig gefunden wird (obwohl die neue Farbe keinen echten Effekt hat), liegt ein Fehler 1. Art vor.

Ein Fehler 2. Art tritt auf, wenn eine falsche Nullhypothese nicht abgelehnt wird, bekannt als falsch negativ. Das bedeutet, dass ein tatsächlicher Effekt übersehen wird. Stellen Sie sich vor, eine neue Funktion erhöht tatsächlich das Nutzerengagement, aber der Test erkennt diese Verbesserung nicht – möglicherweise, weil die Stichprobengröße zu klein ist oder der Test nicht empfindlich genug ist. In diesem Fall liegt ein Fehler 2. Art vor.

Praxisbeispiele verdeutlichen diese Fehler:

Fehler 1. Art (falsch positiv): Einführung eines neuen Checkout-Prozesses basierend auf einem Test, der fälschlicherweise eine höhere Conversion anzeigt, was zu unnötigem Entwicklungsaufwand führt;
Fehler 2. Art (falsch negativ): Verpasste Chance, eine Funktion einzuführen, die tatsächlich die Bindung verbessert, weil der Test deren Effekt nicht erkannt hat.


              123456789101112131415161718192021222324
            
import numpy as np

# Simulating 10,000 A/B tests where there is actually no effect (null hypothesis true)
np.random.seed(42)
n_tests = 10000
alpha = 0.05  # significance level

# Simulating p-values uniformly distributed between 0 and 1 (no true effect)
p_values = np.random.uniform(0, 1, n_tests)

# Type I error: proportion of tests where p-value < alpha (false positives)
type1_errors = np.sum(p_values < alpha)
type1_error_rate = type1_errors / n_tests

print(f"Type I error rate (alpha={alpha}): {type1_error_rate:.3f}")

# Simulating 10,000 A/B tests where there IS a real effect (null hypothesis false)
# Assume power = 0.8 (80% chance to detect the effect)
power = 0.8
# 80% of tests yield p < alpha (true positives), 20% yield p >= alpha (false negatives)
false_negatives = int((1 - power) * n_tests)
type2_error_rate = false_negatives / n_tests

print(f"Type II error rate (beta={1 - power}): {type2_error_rate:.3f}")

Es besteht ein Zielkonflikt zwischen Signifikanzniveau (alpha), Power (1 - beta) und Fehlerraten. Eine Senkung von alpha verringert die Wahrscheinlichkeit von Fehlern 1. Art, erhöht jedoch das Risiko von Fehlern 2. Art. Eine Erhöhung der Stichprobengröße oder der Effektgröße kann die Power steigern und Fehler 2. Art reduzieren. Strategien zur Fehlerminimierung umfassen:

Auswahl eines angemessenen Signifikanzniveaus basierend auf dem Geschäftsrisiko;
Sicherstellung einer ausreichenden Stichprobengröße zur Erkennung relevanter Effekte;
Vorabregistrierung von Hypothesen zur Vermeidung von "p-hacking";
Durchführung von Sensitivitätsanalysen, um die Auswirkungen verschiedener Schwellenwerte zu verstehen.

Das Ausbalancieren dieser Faktoren unterstützt fundiertere Entscheidungen auf Basis von A/B-Tests.

War alles klar?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 2

Fragen Sie AI

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Abschnitt 3. Kapitel 2