Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Datan Tiivistäminen | Datan Käsittely ja Puhdistus
Datan analysointi R:llä

bookDatan Tiivistäminen

Datan tiivistäminen on olennaista, jotta saat nopeasti käsityksen sen rakenteesta ja malleista.

Aineiston nopea yhteenveto

Ennen yksityiskohtaista analyysiä on hyödyllistä luoda nopea yleiskuva aineistosta. Tämä auttaa hahmottamaan arvojen vaihteluvälejä, jakaumia ja kategoristen arvojen esiintymistä yhdellä silmäyksellä. Voit käyttää tähän summary()-funktiota.

summary(df)

Yhden sarakkeen yhteenvetotilastot

Voit laskea peruskuvailevia tilastoja, kuten keskiarvon, mediaanin ja keskihajonnan yksittäisille sarakkeille. Esimerkiksi näin tiivistetään selling_price-sarakkeen tiedot.

Base R

Käytettävissä on omistettuja funktioita, kuten mean(), median() ja sd(). Argumentti na.rm = TRUE varmistaa, että puuttuvat arvot ohitetaan laskennan aikana.

mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)

dplyr

Kaikki kolme tilastotietoa voidaan laskea yhdellä askeleella summarise()-funktion avulla.

df %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    median_price = median(selling_price, na.rm = TRUE),
    sd_price = sd(selling_price, na.rm = TRUE)
  )

Useiden sarakkeiden tiivistäminen ryhmittäin

Usein halutaan vertailla yhteenvetotilastoja eri ryhmien välillä aineistossa. Esimerkiksi voidaan laskea keskimääräinen myyntihinta ja keskimääräinen ajokilometrimäärä polttoainetyypeittäin.

Ennen tiivistämistä varmista, että mileage-sarake on numeerinen:

df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)

Base R

aggregate()-funktiota voidaan käyttää ryhmiteltyjen tilastojen laskemiseen. cbind()-funktiolla voidaan tiivistää useita numeerisia sarakkeita samanaikaisesti.

aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)

dplyr

Ryhmittely ja tiivistäminen voidaan tehdä myös group_by()- ja summarise()-funktioilla. Tämä lähestymistapa on yleensä luettavampi ja helpompi laajentaa.

df %>%
  group_by(fuel) %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    mean_mileage = mean(mileage, na.rm = TRUE)
  )
question mark

aggregate()-funktiota käytetään base R:ssä seuraavaan:

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 1. Luku 11

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Suggested prompts:

What does the summary() function output look like?

How do I handle non-numeric columns when summarizing data?

Can you explain how to interpret the mean, median, and standard deviation results?

Awesome!

Completion rate improved to 4

bookDatan Tiivistäminen

Pyyhkäise näyttääksesi valikon

Datan tiivistäminen on olennaista, jotta saat nopeasti käsityksen sen rakenteesta ja malleista.

Aineiston nopea yhteenveto

Ennen yksityiskohtaista analyysiä on hyödyllistä luoda nopea yleiskuva aineistosta. Tämä auttaa hahmottamaan arvojen vaihteluvälejä, jakaumia ja kategoristen arvojen esiintymistä yhdellä silmäyksellä. Voit käyttää tähän summary()-funktiota.

summary(df)

Yhden sarakkeen yhteenvetotilastot

Voit laskea peruskuvailevia tilastoja, kuten keskiarvon, mediaanin ja keskihajonnan yksittäisille sarakkeille. Esimerkiksi näin tiivistetään selling_price-sarakkeen tiedot.

Base R

Käytettävissä on omistettuja funktioita, kuten mean(), median() ja sd(). Argumentti na.rm = TRUE varmistaa, että puuttuvat arvot ohitetaan laskennan aikana.

mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)

dplyr

Kaikki kolme tilastotietoa voidaan laskea yhdellä askeleella summarise()-funktion avulla.

df %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    median_price = median(selling_price, na.rm = TRUE),
    sd_price = sd(selling_price, na.rm = TRUE)
  )

Useiden sarakkeiden tiivistäminen ryhmittäin

Usein halutaan vertailla yhteenvetotilastoja eri ryhmien välillä aineistossa. Esimerkiksi voidaan laskea keskimääräinen myyntihinta ja keskimääräinen ajokilometrimäärä polttoainetyypeittäin.

Ennen tiivistämistä varmista, että mileage-sarake on numeerinen:

df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)

Base R

aggregate()-funktiota voidaan käyttää ryhmiteltyjen tilastojen laskemiseen. cbind()-funktiolla voidaan tiivistää useita numeerisia sarakkeita samanaikaisesti.

aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)

dplyr

Ryhmittely ja tiivistäminen voidaan tehdä myös group_by()- ja summarise()-funktioilla. Tämä lähestymistapa on yleensä luettavampi ja helpompi laajentaa.

df %>%
  group_by(fuel) %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    mean_mileage = mean(mileage, na.rm = TRUE)
  )
question mark

aggregate()-funktiota käytetään base R:ssä seuraavaan:

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 1. Luku 11
some-alt