Datan Tiivistäminen
Datan tiivistäminen on olennaista, jotta saat nopeasti käsityksen sen rakenteesta ja malleista.
Aineiston nopea yhteenveto
Ennen yksityiskohtaista analyysiä on hyödyllistä luoda nopea yleiskuva aineistosta. Tämä auttaa hahmottamaan arvojen vaihteluvälejä, jakaumia ja kategoristen arvojen esiintymistä yhdellä silmäyksellä. Voit käyttää tähän summary()
-funktiota.
summary(df)
Yhden sarakkeen yhteenvetotilastot
Voit laskea peruskuvailevia tilastoja, kuten keskiarvon, mediaanin ja keskihajonnan yksittäisille sarakkeille. Esimerkiksi näin tiivistetään selling_price
-sarakkeen tiedot.
Base R
Käytettävissä on omistettuja funktioita, kuten mean()
, median()
ja sd()
. Argumentti na.rm = TRUE
varmistaa, että puuttuvat arvot ohitetaan laskennan aikana.
mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)
dplyr
Kaikki kolme tilastotietoa voidaan laskea yhdellä askeleella summarise()
-funktion avulla.
df %>%
summarise(
mean_price = mean(selling_price, na.rm = TRUE),
median_price = median(selling_price, na.rm = TRUE),
sd_price = sd(selling_price, na.rm = TRUE)
)
Useiden sarakkeiden tiivistäminen ryhmittäin
Usein halutaan vertailla yhteenvetotilastoja eri ryhmien välillä aineistossa. Esimerkiksi voidaan laskea keskimääräinen myyntihinta ja keskimääräinen ajokilometrimäärä polttoainetyypeittäin.
Ennen tiivistämistä varmista, että mileage
-sarake on numeerinen:
df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)
Base R
aggregate()
-funktiota voidaan käyttää ryhmiteltyjen tilastojen laskemiseen. cbind()
-funktiolla voidaan tiivistää useita numeerisia sarakkeita samanaikaisesti.
aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)
dplyr
Ryhmittely ja tiivistäminen voidaan tehdä myös group_by()
- ja summarise()
-funktioilla. Tämä lähestymistapa on yleensä luettavampi ja helpompi laajentaa.
df %>%
group_by(fuel) %>%
summarise(
mean_price = mean(selling_price, na.rm = TRUE),
mean_mileage = mean(mileage, na.rm = TRUE)
)
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
What does the summary() function output look like?
How do I handle non-numeric columns when summarizing data?
Can you explain how to interpret the mean, median, and standard deviation results?
Awesome!
Completion rate improved to 4
Datan Tiivistäminen
Pyyhkäise näyttääksesi valikon
Datan tiivistäminen on olennaista, jotta saat nopeasti käsityksen sen rakenteesta ja malleista.
Aineiston nopea yhteenveto
Ennen yksityiskohtaista analyysiä on hyödyllistä luoda nopea yleiskuva aineistosta. Tämä auttaa hahmottamaan arvojen vaihteluvälejä, jakaumia ja kategoristen arvojen esiintymistä yhdellä silmäyksellä. Voit käyttää tähän summary()
-funktiota.
summary(df)
Yhden sarakkeen yhteenvetotilastot
Voit laskea peruskuvailevia tilastoja, kuten keskiarvon, mediaanin ja keskihajonnan yksittäisille sarakkeille. Esimerkiksi näin tiivistetään selling_price
-sarakkeen tiedot.
Base R
Käytettävissä on omistettuja funktioita, kuten mean()
, median()
ja sd()
. Argumentti na.rm = TRUE
varmistaa, että puuttuvat arvot ohitetaan laskennan aikana.
mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)
dplyr
Kaikki kolme tilastotietoa voidaan laskea yhdellä askeleella summarise()
-funktion avulla.
df %>%
summarise(
mean_price = mean(selling_price, na.rm = TRUE),
median_price = median(selling_price, na.rm = TRUE),
sd_price = sd(selling_price, na.rm = TRUE)
)
Useiden sarakkeiden tiivistäminen ryhmittäin
Usein halutaan vertailla yhteenvetotilastoja eri ryhmien välillä aineistossa. Esimerkiksi voidaan laskea keskimääräinen myyntihinta ja keskimääräinen ajokilometrimäärä polttoainetyypeittäin.
Ennen tiivistämistä varmista, että mileage
-sarake on numeerinen:
df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)
Base R
aggregate()
-funktiota voidaan käyttää ryhmiteltyjen tilastojen laskemiseen. cbind()
-funktiolla voidaan tiivistää useita numeerisia sarakkeita samanaikaisesti.
aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)
dplyr
Ryhmittely ja tiivistäminen voidaan tehdä myös group_by()
- ja summarise()
-funktioilla. Tämä lähestymistapa on yleensä luettavampi ja helpompi laajentaa.
df %>%
group_by(fuel) %>%
summarise(
mean_price = mean(selling_price, na.rm = TRUE),
mean_mileage = mean(mileage, na.rm = TRUE)
)
Kiitos palautteestasi!