Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Poikkeavien Arvojen Poistaminen Z-Pistemetodilla | Perustason Tilastollinen Analyysi
Datan Analysointi R:llä

bookPoikkeavien Arvojen Poistaminen Z-Pistemetodilla

Yksi yleinen menetelmä poikkeavien arvojen tunnistamiseen ja poistamiseen on z-score-menetelmä. Tämä tekniikka määrittää, kuinka kaukana havainto on keskiarvosta keskihajonnan yksiköissä mitattuna. Jos havainto ylittää tietyn raja-arvon (yleensä ±3), sitä pidetään poikkeavana arvona.

Mikä on z-score?

Z-score (tunnetaan myös nimellä standardoitu arvo) lasketaan kaavalla:

Z=XμσZ = \frac{X - \mu}{\sigma}

Missä:

  • XX: alkuperäinen havainto;
  • μ\mu: aineiston keskiarvo;
  • σ\sigma: aineiston keskihajonta.

Z-score-arvojen laskeminen

Z-score-arvot voidaan laskea manuaalisesti seuraavan kaavan avulla:

mean_cgpa <- mean(df$cgpa)
sd_cgpa <- sd(df$cgpa)
df$cgpa_zscore <- (df$cgpa - mean_cgpa) / sd_cgpa

Tai voit käyttää sisäänrakennettua funktiota:

df$cgpa_zscore <- scale(df$cgpa)

Poikkeavien havaintojen tunnistaminen

Kun z-pisteet on laskettu, voidaan valita kynnysarvo (tässä tapauksessa ±3) ja käyttää yksinkertaista suodatusta valitaksesi kaikki havainnot, jotka ovat tämän alueen ulkopuolella:

thresh_hold <- 3
outliers <- df[df$cgpa_zscore > thresh_hold | df$cgpa_zscore < -thresh_hold, ]

Tai voit valita kaikki havainnot alueen sisällä luodaksesi poikkeamattoman aineiston:

df2 <- df[df$cgpa_zscore < thresh_hold & df$cgpa_zscore > -thresh_hold, ]
question mark

Mitä tapahtuu arvoille, joiden z-pisteet ylittävät ±3?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 3. Luku 3

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Suggested prompts:

Can you explain why the threshold of 3 is commonly used for z-scores?

How do I interpret positive and negative z-scores in my dataset?

What should I do if my data is not normally distributed?

Awesome!

Completion rate improved to 4

bookPoikkeavien Arvojen Poistaminen Z-Pistemetodilla

Pyyhkäise näyttääksesi valikon

Yksi yleinen menetelmä poikkeavien arvojen tunnistamiseen ja poistamiseen on z-score-menetelmä. Tämä tekniikka määrittää, kuinka kaukana havainto on keskiarvosta keskihajonnan yksiköissä mitattuna. Jos havainto ylittää tietyn raja-arvon (yleensä ±3), sitä pidetään poikkeavana arvona.

Mikä on z-score?

Z-score (tunnetaan myös nimellä standardoitu arvo) lasketaan kaavalla:

Z=XμσZ = \frac{X - \mu}{\sigma}

Missä:

  • XX: alkuperäinen havainto;
  • μ\mu: aineiston keskiarvo;
  • σ\sigma: aineiston keskihajonta.

Z-score-arvojen laskeminen

Z-score-arvot voidaan laskea manuaalisesti seuraavan kaavan avulla:

mean_cgpa <- mean(df$cgpa)
sd_cgpa <- sd(df$cgpa)
df$cgpa_zscore <- (df$cgpa - mean_cgpa) / sd_cgpa

Tai voit käyttää sisäänrakennettua funktiota:

df$cgpa_zscore <- scale(df$cgpa)

Poikkeavien havaintojen tunnistaminen

Kun z-pisteet on laskettu, voidaan valita kynnysarvo (tässä tapauksessa ±3) ja käyttää yksinkertaista suodatusta valitaksesi kaikki havainnot, jotka ovat tämän alueen ulkopuolella:

thresh_hold <- 3
outliers <- df[df$cgpa_zscore > thresh_hold | df$cgpa_zscore < -thresh_hold, ]

Tai voit valita kaikki havainnot alueen sisällä luodaksesi poikkeamattoman aineiston:

df2 <- df[df$cgpa_zscore < thresh_hold & df$cgpa_zscore > -thresh_hold, ]
question mark

Mitä tapahtuu arvoille, joiden z-pisteet ylittävät ±3?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 3. Luku 3
some-alt