Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Opsummering af Data | Datamanipulation og -Rensning
Dataanalyse med R

bookOpsummering af Data

Opsummering af data er afgørende for hurtigt at få forståelse for datas struktur og mønstre.

Hurtig oversigt over datasættet

Før du udfører en detaljeret analyse, er det nyttigt at generere et hurtigt overblik over datasættet. Dette hjælper dig med at forstå intervaller, fordelinger og tilstedeværelsen af kategoriske værdier med et enkelt blik. Du kan bruge funktionen summary() til dette.

summary(df)

Sammendrag af statistik for en enkelt kolonne

Du kan beregne grundlæggende beskrivende statistik såsom gennemsnit, median og standardafvigelse for individuelle kolonner. For eksempel vises her, hvordan du opsummerer kolonnen selling_price.

Base R

Der findes dedikerede funktioner som mean(), median() og sd(). Argumentet na.rm = TRUE sikrer, at manglende værdier ignoreres under beregningen.

mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)

dplyr

Alle tre statistikker kan beregnes i ét trin med funktionen summarise().

df %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    median_price = median(selling_price, na.rm = TRUE),
    sd_price = sd(selling_price, na.rm = TRUE)
  )

Opsummering af flere kolonner efter gruppe

Ofte ønskes det at sammenligne opsummerende statistikker på tværs af forskellige grupper i datasættet. For eksempel kan man beregne den gennemsnitlige salgspris og gennemsnitlige kilometertal for hver type brændstof.

Før opsummering skal du sikre, at kolonnen mileage er numerisk:

df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)

Base R

Funktionen aggregate() kan bruges til at beregne grupperede statistikker. Funktionen cbind() muliggør opsummering af flere numeriske kolonner på én gang.

aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)

dplyr

Gruppering og opsummering kan også udføres ved hjælp af group_by() og summarise(). Denne tilgang er generelt mere læsbar og lettere at udvide.

df %>%
  group_by(fuel) %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    mean_mileage = mean(mileage, na.rm = TRUE)
  )
question mark

aggregate()-funktionen bruges i base R til:

Select the correct answer

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 1. Kapitel 11

Spørg AI

expand

Spørg AI

ChatGPT

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Awesome!

Completion rate improved to 4

bookOpsummering af Data

Stryg for at vise menuen

Opsummering af data er afgørende for hurtigt at få forståelse for datas struktur og mønstre.

Hurtig oversigt over datasættet

Før du udfører en detaljeret analyse, er det nyttigt at generere et hurtigt overblik over datasættet. Dette hjælper dig med at forstå intervaller, fordelinger og tilstedeværelsen af kategoriske værdier med et enkelt blik. Du kan bruge funktionen summary() til dette.

summary(df)

Sammendrag af statistik for en enkelt kolonne

Du kan beregne grundlæggende beskrivende statistik såsom gennemsnit, median og standardafvigelse for individuelle kolonner. For eksempel vises her, hvordan du opsummerer kolonnen selling_price.

Base R

Der findes dedikerede funktioner som mean(), median() og sd(). Argumentet na.rm = TRUE sikrer, at manglende værdier ignoreres under beregningen.

mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)

dplyr

Alle tre statistikker kan beregnes i ét trin med funktionen summarise().

df %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    median_price = median(selling_price, na.rm = TRUE),
    sd_price = sd(selling_price, na.rm = TRUE)
  )

Opsummering af flere kolonner efter gruppe

Ofte ønskes det at sammenligne opsummerende statistikker på tværs af forskellige grupper i datasættet. For eksempel kan man beregne den gennemsnitlige salgspris og gennemsnitlige kilometertal for hver type brændstof.

Før opsummering skal du sikre, at kolonnen mileage er numerisk:

df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)

Base R

Funktionen aggregate() kan bruges til at beregne grupperede statistikker. Funktionen cbind() muliggør opsummering af flere numeriske kolonner på én gang.

aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)

dplyr

Gruppering og opsummering kan også udføres ved hjælp af group_by() og summarise(). Denne tilgang er generelt mere læsbar og lettere at udvide.

df %>%
  group_by(fuel) %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    mean_mileage = mean(mileage, na.rm = TRUE)
  )
question mark

aggregate()-funktionen bruges i base R til:

Select the correct answer

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 1. Kapitel 11
some-alt