Opsummering af Data
Stryg for at vise menuen
Opsummering af data er afgørende for hurtigt at få forståelse for datastrukturen og mønstre.
Hurtig oversigt over datasættet
Før du udfører en detaljeret analyse, er det nyttigt at generere et hurtigt overblik over datasættet. Dette hjælper med at forstå intervaller, fordelinger og tilstedeværelsen af kategoriske værdier ved første øjekast. Du kan bruge funktionen summary() til dette.
summary(df)
Sammendrag af statistikker for en enkelt kolonne
Du kan beregne grundlæggende beskrivende statistikker såsom gennemsnit, median og standardafvigelse for individuelle kolonner. For eksempel vises her, hvordan du opsummerer kolonnen selling_price.
Base R
Der findes dedikerede funktioner som mean(), median() og sd(). Argumentet na.rm = TRUE sikrer, at manglende værdier ignoreres under beregningen.
mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)
dplyr
Det er muligt at beregne alle tre statistikker i ét trin med funktionen summarise().
df %>%
summarise(
mean_price = mean(selling_price, na.rm = TRUE),
median_price = median(selling_price, na.rm = TRUE),
sd_price = sd(selling_price, na.rm = TRUE)
)
Opsummering af flere kolonner efter gruppe
Ofte ønskes det at sammenligne opsummerede statistikker på tværs af forskellige grupper i datasættet. For eksempel kan man beregne den gennemsnitlige salgspris og gennemsnitlige kilometerstand for hver type brændstof.
Før opsummering skal du sikre, at kolonnen mileage er numerisk:
df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)
Base R
Funktionen aggregate() kan bruges til at beregne grupperede statistikker. Funktionen cbind() gør det muligt at opsummere flere numeriske kolonner på én gang.
aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)
dplyr
Gruppering og opsummering kan også udføres med group_by() og summarise(). Denne tilgang er generelt mere læsbar og lettere at udvide.
df %>%
group_by(fuel) %>%
summarise(
mean_price = mean(selling_price, na.rm = TRUE),
mean_mileage = mean(mileage, na.rm = TRUE)
)
Tak for dine kommentarer!
Spørg AI
Spørg AI
Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat