Poikkeavien Arvojen Poistaminen Z-Pistemetodilla
Yksi yleinen menetelmä poikkeavien arvojen tunnistamiseen ja poistamiseen on z-score-menetelmä. Tämä tekniikka määrittää, kuinka kaukana havainto on keskiarvosta keskihajonnan yksiköissä mitattuna. Jos havainto ylittää tietyn raja-arvon (yleensä ±3), sitä pidetään poikkeavana arvona.
Mikä on z-score?
Z-score (tunnetaan myös nimellä standardoitu arvo) lasketaan kaavalla:
Z=σX−μMissä:
- X: alkuperäinen havainto;
- μ: aineiston keskiarvo;
- σ: aineiston keskihajonta.
Z-score-arvojen laskeminen
Z-score-arvot voidaan laskea manuaalisesti seuraavan kaavan avulla:
mean_cgpa <- mean(df$cgpa)
sd_cgpa <- sd(df$cgpa)
df$cgpa_zscore <- (df$cgpa - mean_cgpa) / sd_cgpa
Tai voit käyttää sisäänrakennettua funktiota:
df$cgpa_zscore <- scale(df$cgpa)
Poikkeavien havaintojen tunnistaminen
Kun z-pisteet on laskettu, voidaan valita kynnysarvo (tässä tapauksessa ±3) ja käyttää yksinkertaista suodatusta valitaksesi kaikki havainnot, jotka ovat tämän alueen ulkopuolella:
thresh_hold <- 3
outliers <- df[df$cgpa_zscore > thresh_hold | df$cgpa_zscore < -thresh_hold, ]
Tai voit valita kaikki havainnot alueen sisällä luodaksesi poikkeamattoman aineiston:
df2 <- df[df$cgpa_zscore < thresh_hold & df$cgpa_zscore > -thresh_hold, ]
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
Can you explain why the threshold of 3 is commonly used for z-scores?
How do I interpret positive and negative z-scores in my dataset?
What should I do if my data is not normally distributed?
Awesome!
Completion rate improved to 4
Poikkeavien Arvojen Poistaminen Z-Pistemetodilla
Pyyhkäise näyttääksesi valikon
Yksi yleinen menetelmä poikkeavien arvojen tunnistamiseen ja poistamiseen on z-score-menetelmä. Tämä tekniikka määrittää, kuinka kaukana havainto on keskiarvosta keskihajonnan yksiköissä mitattuna. Jos havainto ylittää tietyn raja-arvon (yleensä ±3), sitä pidetään poikkeavana arvona.
Mikä on z-score?
Z-score (tunnetaan myös nimellä standardoitu arvo) lasketaan kaavalla:
Z=σX−μMissä:
- X: alkuperäinen havainto;
- μ: aineiston keskiarvo;
- σ: aineiston keskihajonta.
Z-score-arvojen laskeminen
Z-score-arvot voidaan laskea manuaalisesti seuraavan kaavan avulla:
mean_cgpa <- mean(df$cgpa)
sd_cgpa <- sd(df$cgpa)
df$cgpa_zscore <- (df$cgpa - mean_cgpa) / sd_cgpa
Tai voit käyttää sisäänrakennettua funktiota:
df$cgpa_zscore <- scale(df$cgpa)
Poikkeavien havaintojen tunnistaminen
Kun z-pisteet on laskettu, voidaan valita kynnysarvo (tässä tapauksessa ±3) ja käyttää yksinkertaista suodatusta valitaksesi kaikki havainnot, jotka ovat tämän alueen ulkopuolella:
thresh_hold <- 3
outliers <- df[df$cgpa_zscore > thresh_hold | df$cgpa_zscore < -thresh_hold, ]
Tai voit valita kaikki havainnot alueen sisällä luodaksesi poikkeamattoman aineiston:
df2 <- df[df$cgpa_zscore < thresh_hold & df$cgpa_zscore > -thresh_hold, ]
Kiitos palautteestasi!