Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Tilastollinen Merkitsevyys ja P-arvot | A/B-testauksen tilastolliset Perusteet
A/B-testaus Pythonilla

Tilastollinen Merkitsevyys ja P-arvot

Pyyhkäise näyttääksesi valikon

Tilastollinen merkitsevyys on keskeinen käsite A/B-testauksessa, ja sen avulla arvioidaan, ovatko havaittujen ryhmien väliset erot todennäköisesti sattuman aiheuttamia vai viittaavatko ne todelliseen vaikutukseen. Kun suoritat A/B-testin, vertaat mittareita (kuten konversioprosentteja) kahden tai useamman ryhmän välillä. Pelkkä eroavaisuuden havaitseminen ei kuitenkaan tarkoita, että ero olisi merkityksellinen; satunnainen vaihtelu voi aiheuttaa näennäisiä eroja, vaikka todellista vaikutusta ei olisi.

Tässä kohtaa p-arvon käsite tulee mukaan. P-arvo mittaa todennäköisyyttä saada yhtä äärimmäisiä tuloksia kuin havaitut, olettaen että ryhmien välillä ei ole todellista eroa (eli "nollahypoteesi" on tosi). Matala p-arvo viittaa siihen, että näin äärimmäinen tulos olisi hyvin epätodennäköinen, jos todellista vaikutusta ei olisi, ja antaa näin näyttöä nollahypoteesia vastaan.

Oikea tulkinta:

  • P-arvo 0,03 tarkoittaa, että jos todellista eroa ei ole, on 3 %:n todennäköisyys havaita yhtä suuri (tai suurempi) ero kuin havaittu.

Väärä tulkinta:

  • P-arvo 0,03 ei tarkoita, että tuloksesi olisi 97 %:n todennäköisyydellä oikea;
  • P-arvo ei kerro nollahypoteesin todennäköisyyttä todeksi tai epätodeksi.

Oletetaan, että suoritat A/B-testin, jossa vertaillaan kahden verkkosivuversion klikkausprosentteja (CTR). Jos havaittu p-arvo on 0,01, tämä viittaa siihen, että tällainen ero syntyisi harvoin sattumalta, ja voit päätellä uuden version toimivan eri tavalla. Jos taas p-arvo on 0,50, havaittu ero johtuu todennäköisesti satunnaisvaihtelusta, eikä todellisesta vaikutuksesta voida puhua.

Yleisiä väärinkäsityksiä ovat uskomus, että pieni p-arvo takaa käytännön merkityksen, tai että ei-merkitsevä tulos todistaa vaikutuksen puuttumisen. Todellisuudessa tilastollinen merkitsevyys kertoo vain, kuinka todennäköisesti havaittu tulos johtuu sattumasta, ei sitä, onko vaikutus suuri, hyödyllinen tai tärkeä.

12345678910111213141516171819202122232425262728293031323334
import numpy as np from scipy import stats # Example: A/B test comparing conversion rates # Group A: 1000 users, 120 converted # Group B: 1000 users, 150 converted # Conversion rates conv_a = 120 / 1000 conv_b = 150 / 1000 # Number of successes and trials success_a, n_a = 120, 1000 success_b, n_b = 150, 1000 # Calculating pooled probability p_pool = (success_a + success_b) / (n_a + n_b) # Standard error se = np.sqrt(p_pool * (1 - p_pool) * (1/n_a + 1/n_b)) # Z-score z = (conv_b - conv_a) / se # Two-tailed p-value p_value = 2 * (1 - stats.norm.cdf(abs(z))) print(f"Conversion rate A: {conv_a:.3f}") print(f"Conversion rate B: {conv_b:.3f}") print(f"Z-score: {z:.2f}") print(f"P-value: {p_value:.4f}") # Interpretation: # If p-value < 0.05, result is considered statistically significant.
Note
Määritelmä

Z-arvo mittaa, kuinka monen keskihajonnan päässä havainto tai datapiste on jakauman keskiarvosta. Hypoteesitesteissä z-arvoa käytetään arvioimaan, kuinka poikkeava havaittu ero on verrattuna siihen, mitä nollahypoteesin vallitessa odotetaan. Suurempi itseisarvoinen z-arvo osoittaa merkittävämmän eron ja auttaa arvioimaan, johtuuko tulos todennäköisesti sattumasta vai todellisesta vaikutuksesta.

Yleisin tilastollisen merkitsevyyden raja-arvo on 0,05. Jos p-arvosi on tämän rajan alapuolella, tulosta pidetään yleensä "tilastollisesti merkitsevänä" – eli todisteet nollahypoteesia vastaan ovat riittävän vahvat sen hylkäämiseksi. Raja-arvon valinta on kuitenkin mielivaltainen ja se tulisi arvioida testin kontekstissa.

On tärkeää muistaa p-arvojen rajoitukset:

  • P-arvo kertoo vain, kuinka yllättäviä havaintosi olisivat, jos vaikutusta ei olisi; se ei mittaa vaikutuksen suuruutta tai merkitystä;
  • Tilastollinen merkitsevyys ei takaa käytännön merkittävyyttä tai liiketoiminnallista vaikutusta;
  • P-arvot voivat johtaa harhaan, jos otoskoko on liian pieni tai suuri, tai jos useita testejä tehdään ilman korjausta.

Tulkitse p-arvoja aina yhdessä muiden mittareiden, kuten efektikoon ja luottamusvälin, kanssa ja ole varovainen tehdessäsi vahvoja johtopäätöksiä pelkän tilastollisen merkitsevyyden perusteella.

question mark

Mikä seuraavista on oikea tulkinta p-arvolle 0,04 A/B-testissä?

Valitse oikea vastaus

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 3. Luku 1

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Osio 3. Luku 1
some-alt