Opsummering af Data
Opsummering af data er afgørende for hurtigt at opnå forståelse af datastrukturen og mønstre.
Hurtig oversigt over datasættet
Før der udføres en detaljeret analyse, er det nyttigt at generere et hurtigt overblik over datasættet. Dette hjælper med at forstå intervaller, fordelinger og tilstedeværelsen af kategoriske værdier ved første øjekast. Funktionen summary()
kan anvendes til dette.
summary(df)
Sammendrag af statistik for en enkelt kolonne
Det er muligt at beregne grundlæggende deskriptiv statistik såsom gennemsnit, median og standardafvigelse for individuelle kolonner. For eksempel vises her, hvordan kolonnen selling_price
kan opsummeres.
Base R
Der findes dedikerede funktioner som mean()
, median()
og sd()
. Argumentet na.rm = TRUE
sikrer, at manglende værdier ignoreres under beregningen.
mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)
dplyr
Alle tre statistikker kan beregnes i ét trin med funktionen summarise()
.
df %>%
summarise(
mean_price = mean(selling_price, na.rm = TRUE),
median_price = median(selling_price, na.rm = TRUE),
sd_price = sd(selling_price, na.rm = TRUE)
)
Opsummering af flere kolonner efter gruppe
Ofte ønskes det at sammenligne opsummerende statistikker på tværs af forskellige grupper i datasættet. For eksempel kan gennemsnitlig salgspris og gennemsnitligt kilometertal beregnes for hver brændstoftype.
Før opsummering skal det sikres, at kolonnen mileage
er numerisk:
df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)
Base R
Funktionen aggregate()
kan bruges til at beregne grupperede statistikker. Funktionen cbind()
muliggør opsummering af flere numeriske kolonner på én gang.
aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)
dplyr
Gruppering og opsummering kan også udføres ved hjælp af group_by()
og summarise()
. Denne tilgang er generelt mere læsbar og lettere at udvide.
df %>%
group_by(fuel) %>%
summarise(
mean_price = mean(selling_price, na.rm = TRUE),
mean_mileage = mean(mileage, na.rm = TRUE)
)
Tak for dine kommentarer!
Spørg AI
Spørg AI
Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat
Awesome!
Completion rate improved to 4
Opsummering af Data
Stryg for at vise menuen
Opsummering af data er afgørende for hurtigt at opnå forståelse af datastrukturen og mønstre.
Hurtig oversigt over datasættet
Før der udføres en detaljeret analyse, er det nyttigt at generere et hurtigt overblik over datasættet. Dette hjælper med at forstå intervaller, fordelinger og tilstedeværelsen af kategoriske værdier ved første øjekast. Funktionen summary()
kan anvendes til dette.
summary(df)
Sammendrag af statistik for en enkelt kolonne
Det er muligt at beregne grundlæggende deskriptiv statistik såsom gennemsnit, median og standardafvigelse for individuelle kolonner. For eksempel vises her, hvordan kolonnen selling_price
kan opsummeres.
Base R
Der findes dedikerede funktioner som mean()
, median()
og sd()
. Argumentet na.rm = TRUE
sikrer, at manglende værdier ignoreres under beregningen.
mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)
dplyr
Alle tre statistikker kan beregnes i ét trin med funktionen summarise()
.
df %>%
summarise(
mean_price = mean(selling_price, na.rm = TRUE),
median_price = median(selling_price, na.rm = TRUE),
sd_price = sd(selling_price, na.rm = TRUE)
)
Opsummering af flere kolonner efter gruppe
Ofte ønskes det at sammenligne opsummerende statistikker på tværs af forskellige grupper i datasættet. For eksempel kan gennemsnitlig salgspris og gennemsnitligt kilometertal beregnes for hver brændstoftype.
Før opsummering skal det sikres, at kolonnen mileage
er numerisk:
df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)
Base R
Funktionen aggregate()
kan bruges til at beregne grupperede statistikker. Funktionen cbind()
muliggør opsummering af flere numeriske kolonner på én gang.
aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)
dplyr
Gruppering og opsummering kan også udføres ved hjælp af group_by()
og summarise()
. Denne tilgang er generelt mere læsbar og lettere at udvide.
df %>%
group_by(fuel) %>%
summarise(
mean_price = mean(selling_price, na.rm = TRUE),
mean_mileage = mean(mileage, na.rm = TRUE)
)
Tak for dine kommentarer!