Datan Tiivistäminen
Pyyhkäise näyttääksesi valikon
Datan tiivistäminen on olennaista, jotta voidaan nopeasti ymmärtää sen rakenne ja mahdolliset kuviot.
Nopea yhteenveto aineistosta
Ennen yksityiskohtaista analyysiä on hyödyllistä muodostaa nopea yleiskuva aineistosta. Tämä auttaa hahmottamaan arvojen vaihteluvälit, jakaumat ja kategoristen arvojen esiintymisen yhdellä silmäyksellä. Voit käyttää tähän summary()-funktiota.
summary(df)
Yhteenvetotilastot yhdelle sarakkeelle
Voit laskea peruskuvailevia tilastoja, kuten keskiarvon, mediaanin ja keskihajonnan yksittäisille sarakkeille. Esimerkiksi seuraavassa tiivistetään selling_price-sarakkeen tiedot.
Base R
Käytettävissä on omistettuja funktioita kuten mean(), median() ja sd(). Argumentti na.rm = TRUE varmistaa, että puuttuvat arvot ohitetaan laskennan aikana.
mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)
dplyr
Kaikki kolme tilastotietoa voidaan laskea yhdellä askeleella summarise()-funktion avulla.
df %>%
summarise(
mean_price = mean(selling_price, na.rm = TRUE),
median_price = median(selling_price, na.rm = TRUE),
sd_price = sd(selling_price, na.rm = TRUE)
)
Useiden sarakkeiden yhteenvedot ryhmittäin
Usein halutaan vertailla yhteenvetotilastoja eri ryhmien välillä aineistossa. Esimerkiksi voidaan laskea keskimääräinen myyntihinta ja keskimääräinen ajokilometrimäärä polttoainetyypeittäin.
Ennen yhteenvedon laskemista varmista, että mileage-sarake on numeerinen:
df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)
Base R
aggregate()-funktiota voidaan käyttää ryhmiteltyjen tilastojen laskemiseen. cbind()-funktiolla voidaan tiivistää useita numeerisia sarakkeita kerralla.
aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)
dplyr
Ryhmittely ja tiivistäminen voidaan tehdä myös group_by()- ja summarise()-funktioilla. Tämä lähestymistapa on yleensä luettavampi ja helpompi laajentaa.
df %>%
group_by(fuel) %>%
summarise(
mean_price = mean(selling_price, na.rm = TRUE),
mean_mileage = mean(mileage, na.rm = TRUE)
)
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme