Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Datan Tiivistäminen | Datan Käsittely ja Puhdistus
Datan Analysointi R:llä

Datan Tiivistäminen

Pyyhkäise näyttääksesi valikon

Datan tiivistäminen on olennaista, jotta voidaan nopeasti ymmärtää sen rakenne ja mahdolliset kuviot.

Nopea yhteenveto aineistosta

Ennen yksityiskohtaista analyysiä on hyödyllistä muodostaa nopea yleiskuva aineistosta. Tämä auttaa hahmottamaan arvojen vaihteluvälit, jakaumat ja kategoristen arvojen esiintymisen yhdellä silmäyksellä. Voit käyttää tähän summary()-funktiota.

summary(df)

Yhteenvetotilastot yhdelle sarakkeelle

Voit laskea peruskuvailevia tilastoja, kuten keskiarvon, mediaanin ja keskihajonnan yksittäisille sarakkeille. Esimerkiksi seuraavassa tiivistetään selling_price-sarakkeen tiedot.

Base R

Käytettävissä on omistettuja funktioita kuten mean(), median() ja sd(). Argumentti na.rm = TRUE varmistaa, että puuttuvat arvot ohitetaan laskennan aikana.

mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)

dplyr

Kaikki kolme tilastotietoa voidaan laskea yhdellä askeleella summarise()-funktion avulla.

df %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    median_price = median(selling_price, na.rm = TRUE),
    sd_price = sd(selling_price, na.rm = TRUE)
  )

Useiden sarakkeiden yhteenvedot ryhmittäin

Usein halutaan vertailla yhteenvetotilastoja eri ryhmien välillä aineistossa. Esimerkiksi voidaan laskea keskimääräinen myyntihinta ja keskimääräinen ajokilometrimäärä polttoainetyypeittäin.

Ennen yhteenvedon laskemista varmista, että mileage-sarake on numeerinen:

df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)

Base R

aggregate()-funktiota voidaan käyttää ryhmiteltyjen tilastojen laskemiseen. cbind()-funktiolla voidaan tiivistää useita numeerisia sarakkeita kerralla.

aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)

dplyr

Ryhmittely ja tiivistäminen voidaan tehdä myös group_by()- ja summarise()-funktioilla. Tämä lähestymistapa on yleensä luettavampi ja helpompi laajentaa.

df %>%
  group_by(fuel) %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    mean_mileage = mean(mileage, na.rm = TRUE)
  )
question mark

aggregate()-funktiota käytetään base R:ssä seuraavaan:

Valitse oikea vastaus

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 1. Luku 11

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Osio 1. Luku 11
some-alt