Leer Statistische Significanties en p-Waarden | Statistische Basisprincipes Voor A/B-Testen

Veeg om het menu te tonen

Statistische significantie is een fundamenteel concept in A/B-testen en helpt bepalen of waargenomen verschillen tussen groepen waarschijnlijk toeval zijn of een daadwerkelijk effect weerspiegelen. Bij het uitvoeren van een A/B-test vergelijk je statistieken (zoals conversieratio's) tussen twee of meer groepen. Het waarnemen van een verschil betekent echter niet automatisch dat het betekenisvol is; willekeurige variatie kan schijnbare verschillen veroorzaken, zelfs als er geen echt effect is.

Hier komt het concept van de p-waarde om de hoek kijken. De p-waarde meet de kans om resultaten te verkrijgen die minstens zo extreem zijn als de waargenomen resultaten, ervan uitgaande dat er daadwerkelijk geen verschil is tussen de groepen (de "nulhypothese" is waar). Een lage p-waarde suggereert dat zo'n extreem resultaat zeer onwaarschijnlijk zou zijn als er echt geen effect is, wat bewijs levert tegen de nulhypothese.

Juiste interpretatie:

Een p-waarde van 0,03 betekent dat, als er geen echt verschil is, er een kans van 3% is om een verschil te zien dat minstens zo groot is als het waargenomen verschil.

Onjuiste interpretatie:

Een p-waarde van 0,03 betekent niet dat er een kans van 97% is dat je resultaat echt is;
Een p-waarde geeft niet de kans aan dat de nulhypothese waar of onwaar is.

Stel dat je een A/B-test uitvoert waarbij je de click-through rate (CTR) van twee websiteversies vergelijkt. Als je een p-waarde van 0,01 waarneemt, suggereert dit dat zo'n verschil zelden alleen door toeval zou optreden, en kun je concluderen dat de nieuwe versie anders presteert. Als de p-waarde echter 0,50 is, is het waargenomen verschil waarschijnlijk te wijten aan willekeurige variatie en kun je geen echt effect claimen.

Veelvoorkomende misvattingen zijn onder andere het geloven dat een kleine p-waarde praktische relevantie garandeert of dat een niet-significant resultaat bewijst dat er geen effect is. In werkelijkheid geeft statistische significantie alleen aan hoe waarschijnlijk het is dat het waargenomen resultaat door toeval is ontstaan, niet of het effect groot, nuttig of belangrijk is.


              12345678910111213141516171819202122232425262728293031323334
            
import numpy as np
from scipy import stats

# Example: A/B test comparing conversion rates
# Group A: 1000 users, 120 converted
# Group B: 1000 users, 150 converted

# Conversion rates
conv_a = 120 / 1000
conv_b = 150 / 1000

# Number of successes and trials
success_a, n_a = 120, 1000
success_b, n_b = 150, 1000

# Calculating pooled probability
p_pool = (success_a + success_b) / (n_a + n_b)

# Standard error
se = np.sqrt(p_pool * (1 - p_pool) * (1/n_a + 1/n_b))

# Z-score
z = (conv_b - conv_a) / se

# Two-tailed p-value
p_value = 2 * (1 - stats.norm.cdf(abs(z)))

print(f"Conversion rate A: {conv_a:.3f}")
print(f"Conversion rate B: {conv_b:.3f}")
print(f"Z-score: {z:.2f}")
print(f"P-value: {p_value:.4f}")

# Interpretation:
# If p-value < 0.05, result is considered statistically significant.

Definitie

Een z-score meet hoeveel standaarddeviaties een observatie of datapunt van het gemiddelde van een verdeling afligt. Bij hypothesetoetsing gebruik je de z-score om te bepalen hoe extreem het waargenomen verschil is ten opzichte van wat wordt verwacht onder de nulhypothese. Een hogere absolute z-score duidt op een significant groter verschil, wat helpt beoordelen of het resultaat waarschijnlijk door toeval komt of een echt effect vertegenwoordigt.

De meest gebruikte drempel voor statistische significantie is 0,05. Als je p-waarde onder deze drempel ligt, wordt doorgaans gezegd dat het resultaat "statistisch significant" is - wat betekent dat het bewijs tegen de nulhypothese sterk genoeg is om deze te verwerpen. De keuze van de drempel is echter willekeurig en moet worden overwogen in de context van je test.

Het is belangrijk om de beperkingen van p-waarden te onthouden:

Een p-waarde geeft alleen aan hoe verrassend je data zou zijn als er geen effect is; het meet niet de omvang of het belang van een effect;
Statistische significantie garandeert geen praktische significantie of zakelijke impact;
P-waarden kunnen misleidend zijn als de steekproef te klein of te groot is, of als meerdere testen worden uitgevoerd zonder correctie.

Interpreteer p-waarden altijd samen met andere statistieken, zoals effectgrootte en betrouwbaarheidsintervallen, en wees voorzichtig met het trekken van sterke conclusies op basis van alleen statistische significantie.

Was alles duidelijk?

Bedankt voor je feedback!

Sectie 3. Hoofdstuk 1

Vraag AI

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Sectie 3. Hoofdstuk 1