Lernen Statistische Signifikanz und P-Werte | Statistische Grundlagen Für A/B-Tests

Swipe um das Menü anzuzeigen

Statistische Signifikanz ist ein grundlegendes Konzept im A/B-Testing und hilft dabei zu entscheiden, ob beobachtete Unterschiede zwischen Gruppen wahrscheinlich auf Zufall beruhen oder einen tatsächlichen Effekt widerspiegeln. Beim Durchführen eines A/B-Tests werden Kennzahlen (wie Konversionsraten) zwischen zwei oder mehr Gruppen verglichen. Das bloße Beobachten eines Unterschieds bedeutet jedoch nicht, dass dieser auch bedeutsam ist; zufällige Schwankungen können scheinbare Unterschiede erzeugen, selbst wenn kein echter Effekt vorliegt.

Hier kommt das Konzept des p-Werts ins Spiel. Der p-Wert misst die Wahrscheinlichkeit, Ergebnisse zu erhalten, die mindestens so extrem sind wie die beobachteten, unter der Annahme, dass tatsächlich kein Unterschied zwischen den Gruppen besteht (die "Nullhypothese" ist wahr). Ein niedriger p-Wert deutet darauf hin, dass ein so extremes Ergebnis sehr unwahrscheinlich wäre, wenn es tatsächlich keinen Effekt gäbe, und liefert somit Hinweise gegen die Nullhypothese.

Korrekte Interpretation:

Ein p-Wert von 0,03 bedeutet, dass – falls kein tatsächlicher Unterschied besteht – eine 3%ige Wahrscheinlichkeit besteht, einen mindestens so großen Unterschied wie den beobachteten zu sehen.

Falsche Interpretation:

Ein p-Wert von 0,03 bedeutet nicht, dass es eine 97%ige Wahrscheinlichkeit gibt, dass Ihr Ergebnis echt ist;
Ein p-Wert gibt nicht an, wie wahrscheinlich es ist, dass die Nullhypothese wahr oder falsch ist.

Angenommen, Sie führen einen A/B-Test durch, bei dem die Klickrate (CTR) von zwei Website-Versionen verglichen wird. Wenn Sie einen p-Wert von 0,01 beobachten, deutet dies darauf hin, dass ein solcher Unterschied nur selten zufällig auftreten würde, und Sie können daraus schließen, dass die neue Version sich tatsächlich anders verhält. Liegt der p-Wert jedoch bei 0,50, ist der beobachtete Unterschied wahrscheinlich auf zufällige Schwankungen zurückzuführen, und es kann kein echter Effekt behauptet werden.

Häufige Missverständnisse sind die Annahme, dass ein kleiner p-Wert praktische Bedeutung garantiert, oder dass ein nicht-signifikantes Ergebnis beweist, dass kein Effekt existiert. Tatsächlich gibt die statistische Signifikanz nur an, wie wahrscheinlich es ist, dass das beobachtete Ergebnis auf Zufall beruht – nicht, ob der Effekt groß, nützlich oder wichtig ist.


              12345678910111213141516171819202122232425262728293031323334
            
import numpy as np
from scipy import stats

# Example: A/B test comparing conversion rates
# Group A: 1000 users, 120 converted
# Group B: 1000 users, 150 converted

# Conversion rates
conv_a = 120 / 1000
conv_b = 150 / 1000

# Number of successes and trials
success_a, n_a = 120, 1000
success_b, n_b = 150, 1000

# Calculating pooled probability
p_pool = (success_a + success_b) / (n_a + n_b)

# Standard error
se = np.sqrt(p_pool * (1 - p_pool) * (1/n_a + 1/n_b))

# Z-score
z = (conv_b - conv_a) / se

# Two-tailed p-value
p_value = 2 * (1 - stats.norm.cdf(abs(z)))

print(f"Conversion rate A: {conv_a:.3f}")
print(f"Conversion rate B: {conv_b:.3f}")
print(f"Z-score: {z:.2f}")
print(f"P-value: {p_value:.4f}")

# Interpretation:
# If p-value < 0.05, result is considered statistically significant.

Definition

Ein z-Wert misst, wie viele Standardabweichungen eine Beobachtung oder ein Datenpunkt vom Mittelwert einer Verteilung entfernt ist. In der Hypothesentestung wird der z-Wert verwendet, um zu bestimmen, wie extrem der beobachtete Unterschied im Vergleich zu dem ist, was unter der Nullhypothese erwartet wird. Ein höherer absoluter z-Wert weist auf einen signifikanten Unterschied hin und hilft dabei einzuschätzen, ob das Ergebnis wahrscheinlich auf Zufall beruht oder einen echten Effekt darstellt.

Der am häufigsten verwendete Schwellenwert für statistische Signifikanz ist 0,05. Liegt Ihr p-Wert unter diesem Schwellenwert, spricht man typischerweise von einem "statistisch signifikanten" Ergebnis – das bedeutet, dass die Evidenz gegen die Nullhypothese stark genug ist, um sie abzulehnen. Die Wahl des Schwellenwerts ist jedoch willkürlich und sollte im Kontext Ihres Tests betrachtet werden.

Es ist wichtig, die Einschränkungen von p-Werten zu beachten:

Ein p-Wert gibt nur an, wie überraschend Ihre Daten wären, wenn kein Effekt vorliegt; er misst weder die Größe noch die Bedeutung eines Effekts;
Statistische Signifikanz garantiert keine praktische Relevanz oder geschäftlichen Nutzen;
P-Werte können irreführend sein, wenn die Stichprobengröße zu klein oder zu groß ist oder wenn mehrere Tests ohne Anpassung durchgeführt werden.

P-Werte sollten immer zusammen mit anderen Kennzahlen wie Effektgröße und Konfidenzintervallen interpretiert werden. Ziehen Sie aus statistischer Signifikanz allein keine voreiligen Schlüsse.

War alles klar?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 1

Fragen Sie AI

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Abschnitt 3. Kapitel 1