Pyyhkäise näyttääksesi valikon

Datan tiivistäminen on olennaista, jotta voidaan nopeasti ymmärtää sen rakenne ja mahdolliset kuviot.

Nopea yhteenveto aineistosta

Ennen yksityiskohtaista analyysiä on hyödyllistä muodostaa nopea yleiskuva aineistosta. Tämä auttaa hahmottamaan arvojen vaihteluvälit, jakaumat ja kategoristen arvojen esiintymisen yhdellä silmäyksellä. Voit käyttää tähän summary()-funktiota.

summary(df)

Yhteenvetotilastot yhdelle sarakkeelle

Voit laskea peruskuvailevia tilastoja, kuten keskiarvon, mediaanin ja keskihajonnan yksittäisille sarakkeille. Esimerkiksi seuraavassa tiivistetään selling_price-sarakkeen tiedot.

Base R

Käytettävissä on omistettuja funktioita kuten mean(), median() ja sd(). Argumentti na.rm = TRUE varmistaa, että puuttuvat arvot ohitetaan laskennan aikana.

mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)

dplyr

Kaikki kolme tilastotietoa voidaan laskea yhdellä askeleella summarise()-funktion avulla.

df %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    median_price = median(selling_price, na.rm = TRUE),
    sd_price = sd(selling_price, na.rm = TRUE)
  )

Useiden sarakkeiden yhteenvedot ryhmittäin

Usein halutaan vertailla yhteenvetotilastoja eri ryhmien välillä aineistossa. Esimerkiksi voidaan laskea keskimääräinen myyntihinta ja keskimääräinen ajokilometrimäärä polttoainetyypeittäin.

Ennen yhteenvedon laskemista varmista, että mileage-sarake on numeerinen:

df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)

Base R

aggregate()-funktiota voidaan käyttää ryhmiteltyjen tilastojen laskemiseen. cbind()-funktiolla voidaan tiivistää useita numeerisia sarakkeita kerralla.

aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)

dplyr

Ryhmittely ja tiivistäminen voidaan tehdä myös group_by()- ja summarise()-funktioilla. Tämä lähestymistapa on yleensä luettavampi ja helpompi laajentaa.

df %>%
  group_by(fuel) %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    mean_mileage = mean(mileage, na.rm = TRUE)
  )

Oliko kaikki selvää?

Kiitos palautteestasi!

Osio 1. Luku 11

Kysy tekoälyä

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Datan Tiivistäminen

Datan tiivistäminen on olennaista, jotta voidaan nopeasti ymmärtää sen rakenne ja mahdolliset kuviot.

Nopea yhteenveto aineistosta

summary(df)

Yhteenvetotilastot yhdelle sarakkeelle

Voit laskea peruskuvailevia tilastoja, kuten keskiarvon, mediaanin ja keskihajonnan yksittäisille sarakkeille. Esimerkiksi seuraavassa tiivistetään selling_price-sarakkeen tiedot.

Base R

Käytettävissä on omistettuja funktioita kuten mean(), median() ja sd(). Argumentti na.rm = TRUE varmistaa, että puuttuvat arvot ohitetaan laskennan aikana.

mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)

dplyr

Kaikki kolme tilastotietoa voidaan laskea yhdellä askeleella summarise()-funktion avulla.

df %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    median_price = median(selling_price, na.rm = TRUE),
    sd_price = sd(selling_price, na.rm = TRUE)
  )

Useiden sarakkeiden yhteenvedot ryhmittäin

Ennen yhteenvedon laskemista varmista, että mileage-sarake on numeerinen:

df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)

Base R

aggregate()-funktiota voidaan käyttää ryhmiteltyjen tilastojen laskemiseen. cbind()-funktiolla voidaan tiivistää useita numeerisia sarakkeita kerralla.

aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)

dplyr

Ryhmittely ja tiivistäminen voidaan tehdä myös group_by()- ja summarise()-funktioilla. Tämä lähestymistapa on yleensä luettavampi ja helpompi laajentaa.

df %>%
  group_by(fuel) %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    mean_mileage = mean(mileage, na.rm = TRUE)
  )

Oliko kaikki selvää?

Kiitos palautteestasi!

Osio 1. Luku 11