Kuvaileva Tilastotiede
Datan ymmärtäminen alkaa kuvailevasta tilastotieteestä – nämä tarjoavat olennaiset yhteenvedot muuttujien jakaumasta, keskittymistä ja hajonnasta.
Peruskuvailevat tilastot
Yleisimmät tilastolliset mittarit ovat:
- Keskiarvo: arvojen keskiarvo;
- Keskihajonta: kuinka paljon arvot poikkeavat keskiarvosta;
- Mediaani: keskimmäinen arvo;
- Min / max: pienimmät ja suurimmat arvot.
Nämä antavat nopean yleiskuvan muuttujien jakaumasta.
Base R
Base R tarjoaa yksinkertaiset funktiot kuvailevien tilastojen laskemiseen. summary()
-funktio tuottaa myös nopean tilastollisen yhteenvedon kaikista numeerisista sarakkeista.
mean(df$max_power, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
min(df$mileage, na.rm = TRUE)
max(df$mileage, na.rm = TRUE)
summary(df)
dplyr
dplyr
-kirjastolla voit käyttää summarise()
-funktiota laskeaksesi useita tilastollisia tunnuslukuja samanaikaisesti selkeässä ja luettavassa muodossa.
df %>%
summarise(
avg_power = mean(max_power, na.rm = TRUE),
sd_power = sd(max_power, na.rm = TRUE),
median_power = median(max_power, na.rm = TRUE)
)
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
Awesome!
Completion rate improved to 4
Kuvaileva Tilastotiede
Pyyhkäise näyttääksesi valikon
Datan ymmärtäminen alkaa kuvailevasta tilastotieteestä – nämä tarjoavat olennaiset yhteenvedot muuttujien jakaumasta, keskittymistä ja hajonnasta.
Peruskuvailevat tilastot
Yleisimmät tilastolliset mittarit ovat:
- Keskiarvo: arvojen keskiarvo;
- Keskihajonta: kuinka paljon arvot poikkeavat keskiarvosta;
- Mediaani: keskimmäinen arvo;
- Min / max: pienimmät ja suurimmat arvot.
Nämä antavat nopean yleiskuvan muuttujien jakaumasta.
Base R
Base R tarjoaa yksinkertaiset funktiot kuvailevien tilastojen laskemiseen. summary()
-funktio tuottaa myös nopean tilastollisen yhteenvedon kaikista numeerisista sarakkeista.
mean(df$max_power, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
min(df$mileage, na.rm = TRUE)
max(df$mileage, na.rm = TRUE)
summary(df)
dplyr
dplyr
-kirjastolla voit käyttää summarise()
-funktiota laskeaksesi useita tilastollisia tunnuslukuja samanaikaisesti selkeässä ja luettavassa muodossa.
df %>%
summarise(
avg_power = mean(max_power, na.rm = TRUE),
sd_power = sd(max_power, na.rm = TRUE),
median_power = median(max_power, na.rm = TRUE)
)
Kiitos palautteestasi!