Statistisk signifikans og p-verdier
Sveip for å vise menyen
Statistisk signifikans er et grunnleggende begrep i A/B-testing, og hjelper deg å avgjøre om observerte forskjeller mellom grupper sannsynligvis skyldes tilfeldigheter eller reflekterer en reell effekt. Når du gjennomfører en A/B-test, sammenligner du måleverdier (som konverteringsrate) mellom to eller flere grupper. Det å observere en forskjell betyr imidlertid ikke nødvendigvis at den er meningsfull; tilfeldige variasjoner kan skape tilsynelatende forskjeller selv om det ikke finnes noen reell effekt.
Dette er hvor begrepet p-verdi kommer inn. P-verdien måler sannsynligheten for å oppnå resultater som er like ekstreme som de observerte, gitt at det faktisk ikke er noen forskjell mellom gruppene (at "nullhypotesen" er sann). En lav p-verdi antyder at et så ekstremt resultat ville vært svært usannsynlig dersom det virkelig ikke var noen effekt, og gir dermed bevis mot nullhypotesen.
Korrekt tolkning:
- En p-verdi på 0,03 betyr at, dersom det ikke var noen reell forskjell, er det 3 % sannsynlighet for å se en forskjell som er like stor (eller større) enn den som er observert.
Feil tolkning:
- En p-verdi på 0,03 betyr ikke at det er 97 % sjanse for at resultatet ditt er reelt;
- En p-verdi forteller deg ikke sannsynligheten for at nullhypotesen er sann eller usann.
Anta at du gjennomfører en A/B-test der du sammenligner klikkrate (CTR) for to versjoner av et nettsted. Hvis du observerer en p-verdi på 0,01, antyder dette at en slik forskjell sjelden ville oppstått ved tilfeldighet alene, og du kan konkludere med at den nye versjonen presterer annerledes. Men hvis p-verdien er 0,50, er den observerte forskjellen sannsynligvis et resultat av tilfeldig variasjon, og du kan ikke hevde at det finnes en reell effekt.
Vanlige misforståelser inkluderer å tro at en lav p-verdi garanterer praktisk betydning, eller at et ikke-signifikant resultat beviser at det ikke finnes noen effekt. I virkeligheten sier statistisk signifikans kun noe om sannsynligheten for at det observerte resultatet skyldes tilfeldigheter, ikke om effekten er stor, nyttig eller viktig.
12345678910111213141516171819202122232425262728293031323334import numpy as np from scipy import stats # Example: A/B test comparing conversion rates # Group A: 1000 users, 120 converted # Group B: 1000 users, 150 converted # Conversion rates conv_a = 120 / 1000 conv_b = 150 / 1000 # Number of successes and trials success_a, n_a = 120, 1000 success_b, n_b = 150, 1000 # Calculating pooled probability p_pool = (success_a + success_b) / (n_a + n_b) # Standard error se = np.sqrt(p_pool * (1 - p_pool) * (1/n_a + 1/n_b)) # Z-score z = (conv_b - conv_a) / se # Two-tailed p-value p_value = 2 * (1 - stats.norm.cdf(abs(z))) print(f"Conversion rate A: {conv_a:.3f}") print(f"Conversion rate B: {conv_b:.3f}") print(f"Z-score: {z:.2f}") print(f"P-value: {p_value:.4f}") # Interpretation: # If p-value < 0.05, result is considered statistically significant.
En z-score måler hvor mange standardavvik en observasjon eller datapunkt er fra gjennomsnittet i en fordeling. I hypotesetesting bruker du z-score for å avgjøre hvor ekstrem den observerte forskjellen er sammenlignet med det som forventes under nullhypotesen. En høyere absolutt z-score indikerer en mer signifikant forskjell, og hjelper deg å vurdere om resultatet sannsynligvis skyldes tilfeldigheter eller representerer en reell effekt.
Den vanligste terskelen for statistisk signifikans er 0,05. Hvis p-verdien din er under denne terskelen, sier man vanligvis at resultatet er "statistisk signifikant" – det vil si at bevisene mot nullhypotesen er sterke nok til å forkaste den. Valg av terskel er imidlertid vilkårlig og bør vurderes i sammenheng med testen din.
Det er viktig å huske begrensningene ved p-verdier:
- En p-verdi forteller kun hvor overraskende dataene dine ville vært hvis det ikke var noen effekt; den måler ikke størrelsen eller viktigheten av en effekt;
- Statistisk signifikans garanterer ikke praktisk betydning eller forretningsmessig effekt;
- P-verdier kan være misvisende hvis utvalgsstørrelsen er for liten eller for stor, eller hvis flere tester gjennomføres uten justering.
Tolk alltid p-verdier sammen med andre målinger, som effektstørrelse og konfidensintervaller, og vær forsiktig med å trekke sterke konklusjoner kun basert på statistisk signifikans.
Takk for tilbakemeldingene dine!
Spør AI
Spør AI
Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår