Summary  
This chapter demonstrates how to calculate z-scores for a dataset—either manually via the standard formula or using a built-in scaling function—and then apply conditional filtering on those scores to identify and remove outliers beyond a chosen threshold.

General domain of usage  
Data preprocessing in statistical analysis

Yksi yleinen menetelmä poikkeavien arvojen tunnistamiseen ja poistamiseen on **z-score-menetelmä**. Tämä tekniikka määrittää, kuinka kaukana havainto on keskiarvosta keskihajonnan yksiköissä mitattuna. Jos havainto ylittää tietyn raja-arvon (yleensä ±3), sitä pidetään poikkeavana arvona.

## Mikä on z-score?
Z-score (tunnetaan myös nimellä standardoitu arvo) lasketaan kaavalla:

$$
Z = \frac{X - \mu}{\sigma}
$$

Missä:
- $$X$$: alkuperäinen havainto;
- $$\mu$$: aineiston keskiarvo;
- $$\sigma$$: aineiston keskihajonta.

## Z-score-arvojen laskeminen
Voit laskea z-score-arvot manuaalisesti seuraavan kaavan avulla:
```
mean_cgpa <- mean(df$cgpa)
sd_cgpa <- sd(df$cgpa)
df$cgpa_zscore <- (df$cgpa - mean_cgpa) / sd_cgpa
```

Tai voit käyttää sisäänrakennettua funktiota:
```
df$cgpa_zscore <- scale(df$cgpa)
```

## Poikkeavien arvojen tunnistaminen
Kun z-pisteet on laskettu, voit valita kynnysarvon (tässä tapauksessa ±3) ja käyttää yksinkertaista suodatusta valitaksesi kaikki arvot, jotka ovat tämän alueen ulkopuolella:
```
thresh_hold <- 3
outliers <- df[df$cgpa_zscore > thresh_hold | df$cgpa_zscore < -thresh_hold, ]
```

Tai voit valita kaikki arvot alueen sisällä luodaksesi poikkeamattoman aineiston:
```
df2 <- df[df$cgpa_zscore < thresh_hold & df$cgpa_zscore > -thresh_hold, ]
```

Lataa aineisto

Lataa luvun koodi

Mitä tapahtuu arvoille, joiden z-arvo on yli ±3?


Hanki käytännön kokemusta datan analysoinnista R:llä oppimalla aineistojen puhdistamista, muokkaamista ja visualisointia. Tutustu keskeisiin työnkulkuihin, kuten datan valintaan ja suodattamiseen, puuttuvien arvojen käsittelyyn sekä tulosten tiivistämiseen. Vahvista osaamistasi datan valmistelussa oivalluksia, raportointia ja syvällisempää tilastollista tarkastelua varten.

Tutustu R:n tietoanalyysin perusteisiin. Opiskele työkalujen asennus, aineistojen lataaminen ja tarkastelu, tietojen valinta ja suodatus, datan lajittelu ja muuntaminen, puuttuvien arvojen käsittely sekä tulosten tiivistäminen syvempien oivallusten saavuttamiseksi.

Opi luomaan vaikuttavia visualisointeja ggplot2:lla. Luo pylväsdiagrammeja, histogrammeja, tiheyskäyriä ja hajontakuvioita sekä mukauta ja viimeistele niitä tyylivalinnoilla ja facetoinnilla syvempien oivallusten löytämiseksi datasta.

Syvennä ymmärrystäsi tilastotieteestä data-analyysissä. Käytä kuvailevia mittareita, tunnista ja käsittele poikkeavia havaintoja sekä hyödynnä korrelaatiotekniikoita visuaalisten työkalujen, kuten lämpökarttojen ja hajontakuvioiden, avulla merkityksellisten yhteyksien löytämiseksi.

Poikkeavien Arvojen Poistaminen Z-Arvomenetelmällä

Mikä on z-score?

Z-score-arvojen laskeminen

Poikkeavien arvojen tunnistaminen

Poikkeavien Arvojen Poistaminen Z-Arvomenetelmällä

Mikä on z-score?

Z-score-arvojen laskeminen

Poikkeavien arvojen tunnistaminen