Oppiskele Tilastollinen Merkitsevyys ja P-arvot | A/B-testauksen tilastolliset Perusteet

Pyyhkäise näyttääksesi valikon

Tilastollinen merkitsevyys on keskeinen käsite A/B-testauksessa, ja sen avulla arvioidaan, ovatko havaittujen ryhmien väliset erot todennäköisesti sattuman aiheuttamia vai viittaavatko ne todelliseen vaikutukseen. Kun suoritat A/B-testin, vertaat mittareita (kuten konversioprosentteja) kahden tai useamman ryhmän välillä. Pelkkä eroavaisuuden havaitseminen ei kuitenkaan tarkoita, että ero olisi merkityksellinen; satunnainen vaihtelu voi aiheuttaa näennäisiä eroja, vaikka todellista vaikutusta ei olisi.

Tässä kohtaa p-arvon käsite tulee mukaan. P-arvo mittaa todennäköisyyttä saada yhtä äärimmäisiä tuloksia kuin havaitut, olettaen että ryhmien välillä ei ole todellista eroa (eli "nollahypoteesi" on tosi). Matala p-arvo viittaa siihen, että näin äärimmäinen tulos olisi hyvin epätodennäköinen, jos todellista vaikutusta ei olisi, ja antaa näin näyttöä nollahypoteesia vastaan.

Oikea tulkinta:

P-arvo 0,03 tarkoittaa, että jos todellista eroa ei ole, on 3 %:n todennäköisyys havaita yhtä suuri (tai suurempi) ero kuin havaittu.

Väärä tulkinta:

P-arvo 0,03 ei tarkoita, että tuloksesi olisi 97 %:n todennäköisyydellä oikea;
P-arvo ei kerro nollahypoteesin todennäköisyyttä todeksi tai epätodeksi.

Oletetaan, että suoritat A/B-testin, jossa vertaillaan kahden verkkosivuversion klikkausprosentteja (CTR). Jos havaittu p-arvo on 0,01, tämä viittaa siihen, että tällainen ero syntyisi harvoin sattumalta, ja voit päätellä uuden version toimivan eri tavalla. Jos taas p-arvo on 0,50, havaittu ero johtuu todennäköisesti satunnaisvaihtelusta, eikä todellisesta vaikutuksesta voida puhua.

Yleisiä väärinkäsityksiä ovat uskomus, että pieni p-arvo takaa käytännön merkityksen, tai että ei-merkitsevä tulos todistaa vaikutuksen puuttumisen. Todellisuudessa tilastollinen merkitsevyys kertoo vain, kuinka todennäköisesti havaittu tulos johtuu sattumasta, ei sitä, onko vaikutus suuri, hyödyllinen tai tärkeä.


              12345678910111213141516171819202122232425262728293031323334
            
import numpy as np
from scipy import stats

# Example: A/B test comparing conversion rates
# Group A: 1000 users, 120 converted
# Group B: 1000 users, 150 converted

# Conversion rates
conv_a = 120 / 1000
conv_b = 150 / 1000

# Number of successes and trials
success_a, n_a = 120, 1000
success_b, n_b = 150, 1000

# Calculating pooled probability
p_pool = (success_a + success_b) / (n_a + n_b)

# Standard error
se = np.sqrt(p_pool * (1 - p_pool) * (1/n_a + 1/n_b))

# Z-score
z = (conv_b - conv_a) / se

# Two-tailed p-value
p_value = 2 * (1 - stats.norm.cdf(abs(z)))

print(f"Conversion rate A: {conv_a:.3f}")
print(f"Conversion rate B: {conv_b:.3f}")
print(f"Z-score: {z:.2f}")
print(f"P-value: {p_value:.4f}")

# Interpretation:
# If p-value < 0.05, result is considered statistically significant.

Määritelmä

Z-arvo mittaa, kuinka monen keskihajonnan päässä havainto tai datapiste on jakauman keskiarvosta. Hypoteesitesteissä z-arvoa käytetään arvioimaan, kuinka poikkeava havaittu ero on verrattuna siihen, mitä nollahypoteesin vallitessa odotetaan. Suurempi itseisarvoinen z-arvo osoittaa merkittävämmän eron ja auttaa arvioimaan, johtuuko tulos todennäköisesti sattumasta vai todellisesta vaikutuksesta.

Yleisin tilastollisen merkitsevyyden raja-arvo on 0,05. Jos p-arvosi on tämän rajan alapuolella, tulosta pidetään yleensä "tilastollisesti merkitsevänä" – eli todisteet nollahypoteesia vastaan ovat riittävän vahvat sen hylkäämiseksi. Raja-arvon valinta on kuitenkin mielivaltainen ja se tulisi arvioida testin kontekstissa.

On tärkeää muistaa p-arvojen rajoitukset:

P-arvo kertoo vain, kuinka yllättäviä havaintosi olisivat, jos vaikutusta ei olisi; se ei mittaa vaikutuksen suuruutta tai merkitystä;
Tilastollinen merkitsevyys ei takaa käytännön merkittävyyttä tai liiketoiminnallista vaikutusta;
P-arvot voivat johtaa harhaan, jos otoskoko on liian pieni tai suuri, tai jos useita testejä tehdään ilman korjausta.

Tulkitse p-arvoja aina yhdessä muiden mittareiden, kuten efektikoon ja luottamusvälin, kanssa ja ole varovainen tehdessäsi vahvoja johtopäätöksiä pelkän tilastollisen merkitsevyyden perusteella.

Oliko kaikki selvää?

Kiitos palautteestasi!

Osio 3. Luku 1

Kysy tekoälyä

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Osio 3. Luku 1