Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Type I and Type II Errors | Statistische Grundlagen Für A/B-Tests
A/B-Testing mit Python

Type I and Type II Errors

Swipe um das Menü anzuzeigen

Das Verständnis von Fehlertypen ist entscheidend für die Interpretation von A/B-Testergebnissen. In der Hypothesentestung tritt ein Fehler 1. Art auf, wenn eine wahre Nullhypothese fälschlicherweise abgelehnt wird, auch als falsch positiv bezeichnet. Das bedeutet, dass ein Unterschied angenommen wird, obwohl in Wirklichkeit keiner existiert. Zum Beispiel: Wenn ein A/B-Test durchgeführt wird, um zu prüfen, ob eine neue Button-Farbe die Klickrate erhöht, und ein statistisch signifikantes Ergebnis nur zufällig gefunden wird (obwohl die neue Farbe keinen echten Effekt hat), liegt ein Fehler 1. Art vor.

Ein Fehler 2. Art tritt auf, wenn eine falsche Nullhypothese nicht abgelehnt wird, bekannt als falsch negativ. Das bedeutet, dass ein tatsächlicher Effekt übersehen wird. Stellen Sie sich vor, eine neue Funktion erhöht tatsächlich das Nutzerengagement, aber der Test erkennt diese Verbesserung nicht – möglicherweise, weil die Stichprobengröße zu klein ist oder der Test nicht empfindlich genug ist. In diesem Fall liegt ein Fehler 2. Art vor.

Praxisbeispiele verdeutlichen diese Fehler:

  • Fehler 1. Art (falsch positiv): Einführung eines neuen Checkout-Prozesses basierend auf einem Test, der fälschlicherweise eine höhere Conversion anzeigt, was zu unnötigem Entwicklungsaufwand führt;
  • Fehler 2. Art (falsch negativ): Verpasste Chance, eine Funktion einzuführen, die tatsächlich die Bindung verbessert, weil der Test deren Effekt nicht erkannt hat.
123456789101112131415161718192021222324
import numpy as np # Simulating 10,000 A/B tests where there is actually no effect (null hypothesis true) np.random.seed(42) n_tests = 10000 alpha = 0.05 # significance level # Simulating p-values uniformly distributed between 0 and 1 (no true effect) p_values = np.random.uniform(0, 1, n_tests) # Type I error: proportion of tests where p-value < alpha (false positives) type1_errors = np.sum(p_values < alpha) type1_error_rate = type1_errors / n_tests print(f"Type I error rate (alpha={alpha}): {type1_error_rate:.3f}") # Simulating 10,000 A/B tests where there IS a real effect (null hypothesis false) # Assume power = 0.8 (80% chance to detect the effect) power = 0.8 # 80% of tests yield p < alpha (true positives), 20% yield p >= alpha (false negatives) false_negatives = int((1 - power) * n_tests) type2_error_rate = false_negatives / n_tests print(f"Type II error rate (beta={1 - power}): {type2_error_rate:.3f}")

Es besteht ein Zielkonflikt zwischen Signifikanzniveau (alpha), Power (1 - beta) und Fehlerraten. Eine Senkung von alpha verringert die Wahrscheinlichkeit von Fehlern 1. Art, erhöht jedoch das Risiko von Fehlern 2. Art. Eine Erhöhung der Stichprobengröße oder der Effektgröße kann die Power steigern und Fehler 2. Art reduzieren. Strategien zur Fehlerminimierung umfassen:

  • Auswahl eines angemessenen Signifikanzniveaus basierend auf dem Geschäftsrisiko;
  • Sicherstellung einer ausreichenden Stichprobengröße zur Erkennung relevanter Effekte;
  • Vorabregistrierung von Hypothesen zur Vermeidung von "p-hacking";
  • Durchführung von Sensitivitätsanalysen, um die Auswirkungen verschiedener Schwellenwerte zu verstehen.

Das Ausbalancieren dieser Faktoren unterstützt fundiertere Entscheidungen auf Basis von A/B-Tests.

question mark

Welches Szenario beschreibt am besten einen Fehler 2. Art im A/B-Testing?

Wählen Sie die richtige Antwort aus

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 2

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Abschnitt 3. Kapitel 2
some-alt