Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Statistisk signifikans og p-verdier | Statistiske Grunnlag for A/B-testing
A/B-testing med Python

Statistisk signifikans og p-verdier

Sveip for å vise menyen

Statistisk signifikans er et grunnleggende begrep i A/B-testing, og hjelper deg å avgjøre om observerte forskjeller mellom grupper sannsynligvis skyldes tilfeldigheter eller reflekterer en reell effekt. Når du gjennomfører en A/B-test, sammenligner du måleverdier (som konverteringsrate) mellom to eller flere grupper. Det å observere en forskjell betyr imidlertid ikke nødvendigvis at den er meningsfull; tilfeldige variasjoner kan skape tilsynelatende forskjeller selv om det ikke finnes noen reell effekt.

Dette er hvor begrepet p-verdi kommer inn. P-verdien måler sannsynligheten for å oppnå resultater som er like ekstreme som de observerte, gitt at det faktisk ikke er noen forskjell mellom gruppene (at "nullhypotesen" er sann). En lav p-verdi antyder at et så ekstremt resultat ville vært svært usannsynlig dersom det virkelig ikke var noen effekt, og gir dermed bevis mot nullhypotesen.

Korrekt tolkning:

  • En p-verdi på 0,03 betyr at, dersom det ikke var noen reell forskjell, er det 3 % sannsynlighet for å se en forskjell som er like stor (eller større) enn den som er observert.

Feil tolkning:

  • En p-verdi på 0,03 betyr ikke at det er 97 % sjanse for at resultatet ditt er reelt;
  • En p-verdi forteller deg ikke sannsynligheten for at nullhypotesen er sann eller usann.

Anta at du gjennomfører en A/B-test der du sammenligner klikkrate (CTR) for to versjoner av et nettsted. Hvis du observerer en p-verdi på 0,01, antyder dette at en slik forskjell sjelden ville oppstått ved tilfeldighet alene, og du kan konkludere med at den nye versjonen presterer annerledes. Men hvis p-verdien er 0,50, er den observerte forskjellen sannsynligvis et resultat av tilfeldig variasjon, og du kan ikke hevde at det finnes en reell effekt.

Vanlige misforståelser inkluderer å tro at en lav p-verdi garanterer praktisk betydning, eller at et ikke-signifikant resultat beviser at det ikke finnes noen effekt. I virkeligheten sier statistisk signifikans kun noe om sannsynligheten for at det observerte resultatet skyldes tilfeldigheter, ikke om effekten er stor, nyttig eller viktig.

12345678910111213141516171819202122232425262728293031323334
import numpy as np from scipy import stats # Example: A/B test comparing conversion rates # Group A: 1000 users, 120 converted # Group B: 1000 users, 150 converted # Conversion rates conv_a = 120 / 1000 conv_b = 150 / 1000 # Number of successes and trials success_a, n_a = 120, 1000 success_b, n_b = 150, 1000 # Calculating pooled probability p_pool = (success_a + success_b) / (n_a + n_b) # Standard error se = np.sqrt(p_pool * (1 - p_pool) * (1/n_a + 1/n_b)) # Z-score z = (conv_b - conv_a) / se # Two-tailed p-value p_value = 2 * (1 - stats.norm.cdf(abs(z))) print(f"Conversion rate A: {conv_a:.3f}") print(f"Conversion rate B: {conv_b:.3f}") print(f"Z-score: {z:.2f}") print(f"P-value: {p_value:.4f}") # Interpretation: # If p-value < 0.05, result is considered statistically significant.
Note
Definisjon

En z-score måler hvor mange standardavvik en observasjon eller datapunkt er fra gjennomsnittet i en fordeling. I hypotesetesting bruker du z-score for å avgjøre hvor ekstrem den observerte forskjellen er sammenlignet med det som forventes under nullhypotesen. En høyere absolutt z-score indikerer en mer signifikant forskjell, og hjelper deg å vurdere om resultatet sannsynligvis skyldes tilfeldigheter eller representerer en reell effekt.

Den vanligste terskelen for statistisk signifikans er 0,05. Hvis p-verdien din er under denne terskelen, sier man vanligvis at resultatet er "statistisk signifikant" – det vil si at bevisene mot nullhypotesen er sterke nok til å forkaste den. Valg av terskel er imidlertid vilkårlig og bør vurderes i sammenheng med testen din.

Det er viktig å huske begrensningene ved p-verdier:

  • En p-verdi forteller kun hvor overraskende dataene dine ville vært hvis det ikke var noen effekt; den måler ikke størrelsen eller viktigheten av en effekt;
  • Statistisk signifikans garanterer ikke praktisk betydning eller forretningsmessig effekt;
  • P-verdier kan være misvisende hvis utvalgsstørrelsen er for liten eller for stor, eller hvis flere tester gjennomføres uten justering.

Tolk alltid p-verdier sammen med andre målinger, som effektstørrelse og konfidensintervaller, og vær forsiktig med å trekke sterke konklusjoner kun basert på statistisk signifikans.

question mark

Hvilken av følgende er den korrekte tolkningen av en p-verdi på 0,04 i en A/B-test?

Velg det helt riktige svaret

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 3. Kapittel 1

Spør AI

expand

Spør AI

ChatGPT

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Seksjon 3. Kapittel 1
some-alt