Deskriptiv Statistik
Forståelse af dine data begynder med deskriptiv statistik – disse giver væsentlige sammenfatninger om fordelingen, centraltendensen og spredningen af variable.
Grundlæggende deskriptiv statistik
De mest almindelige statistiske mål er:
- Gennemsnit: gennemsnitsværdi;
- Standardafvigelse: hvor meget værdierne afviger fra gennemsnittet;
- Median: midterste værdi;
- Min / max: mindste og største værdier.
Disse giver et hurtigt overblik over, hvordan dine variable er fordelt.
Base R
Base R tilbyder enkle funktioner til beregning af deskriptiv statistik. Funktionen summary()
giver også et hurtigt statistisk overblik over alle numeriske kolonner.
mean(df$max_power, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
min(df$mileage, na.rm = TRUE)
max(df$mileage, na.rm = TRUE)
summary(df)
dplyr
Med dplyr
kan du bruge summarise()
til at beregne flere statistikker på én gang i et overskueligt og læsbart format.
df %>%
summarise(
avg_power = mean(max_power, na.rm = TRUE),
sd_power = sd(max_power, na.rm = TRUE),
median_power = median(max_power, na.rm = TRUE)
)
Tak for dine kommentarer!
Spørg AI
Spørg AI
Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat
Awesome!
Completion rate improved to 4
Deskriptiv Statistik
Stryg for at vise menuen
Forståelse af dine data begynder med deskriptiv statistik – disse giver væsentlige sammenfatninger om fordelingen, centraltendensen og spredningen af variable.
Grundlæggende deskriptiv statistik
De mest almindelige statistiske mål er:
- Gennemsnit: gennemsnitsværdi;
- Standardafvigelse: hvor meget værdierne afviger fra gennemsnittet;
- Median: midterste værdi;
- Min / max: mindste og største værdier.
Disse giver et hurtigt overblik over, hvordan dine variable er fordelt.
Base R
Base R tilbyder enkle funktioner til beregning af deskriptiv statistik. Funktionen summary()
giver også et hurtigt statistisk overblik over alle numeriske kolonner.
mean(df$max_power, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
min(df$mileage, na.rm = TRUE)
max(df$mileage, na.rm = TRUE)
summary(df)
dplyr
Med dplyr
kan du bruge summarise()
til at beregne flere statistikker på én gang i et overskueligt og læsbart format.
df %>%
summarise(
avg_power = mean(max_power, na.rm = TRUE),
sd_power = sd(max_power, na.rm = TRUE),
median_power = median(max_power, na.rm = TRUE)
)
Tak for dine kommentarer!