Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Oppsummering av Data | Datamanipulering og -rensing
Dataanalyse med R

bookOppsummering av Data

Oppsummering av data er avgjørende for å få en rask forståelse av datastrukturen og mønstre.

Rask oppsummering av datasettet

Før du utfører en detaljert analyse, er det nyttig å generere en rask oversikt over datasettet. Dette hjelper deg å forstå spenn, fordelinger og tilstedeværelse av kategoriske verdier ved første øyekast. Du kan bruke funksjonen summary() til dette.

summary(df)

Sammendragsstatistikk for én kolonne

Du kan beregne grunnleggende beskrivende statistikk som gjennomsnitt, median og standardavvik for individuelle kolonner. For eksempel, slik kan du oppsummere kolonnen selling_price.

Base R

Det finnes dedikerte funksjoner som mean(), median() og sd() tilgjengelig. Argumentet na.rm = TRUE sørger for at manglende verdier ignoreres under beregningen.

mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)

dplyr

Du kan beregne alle tre statistikkene i ett steg med funksjonen summarise().

df %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    median_price = median(selling_price, na.rm = TRUE),
    sd_price = sd(selling_price, na.rm = TRUE)
  )

Oppsummering av flere kolonner etter gruppe

Ofte ønsker du å sammenligne oppsummerende statistikk på tvers av ulike grupper i datasettet. For eksempel kan du beregne gjennomsnittlig salgspris og gjennomsnittlig kjørelengde for hver drivstofftype.

Før du oppsummerer, må du sørge for at kolonnen mileage er numerisk:

df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)

Base R

Funksjonen aggregate() kan brukes til å beregne grupperte statistikker. Funksjonen cbind() gjør det mulig å oppsummere flere numeriske kolonner samtidig.

aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)

dplyr

Gruppering og oppsummering kan også utføres ved hjelp av group_by() og summarise(). Denne tilnærmingen er vanligvis mer lesbar og enklere å utvide.

df %>%
  group_by(fuel) %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    mean_mileage = mean(mileage, na.rm = TRUE)
  )
question mark

Funksjonen aggregate() brukes i base R til å:

Select the correct answer

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 1. Kapittel 11

Spør AI

expand

Spør AI

ChatGPT

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Awesome!

Completion rate improved to 4

bookOppsummering av Data

Sveip for å vise menyen

Oppsummering av data er avgjørende for å få en rask forståelse av datastrukturen og mønstre.

Rask oppsummering av datasettet

Før du utfører en detaljert analyse, er det nyttig å generere en rask oversikt over datasettet. Dette hjelper deg å forstå spenn, fordelinger og tilstedeværelse av kategoriske verdier ved første øyekast. Du kan bruke funksjonen summary() til dette.

summary(df)

Sammendragsstatistikk for én kolonne

Du kan beregne grunnleggende beskrivende statistikk som gjennomsnitt, median og standardavvik for individuelle kolonner. For eksempel, slik kan du oppsummere kolonnen selling_price.

Base R

Det finnes dedikerte funksjoner som mean(), median() og sd() tilgjengelig. Argumentet na.rm = TRUE sørger for at manglende verdier ignoreres under beregningen.

mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)

dplyr

Du kan beregne alle tre statistikkene i ett steg med funksjonen summarise().

df %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    median_price = median(selling_price, na.rm = TRUE),
    sd_price = sd(selling_price, na.rm = TRUE)
  )

Oppsummering av flere kolonner etter gruppe

Ofte ønsker du å sammenligne oppsummerende statistikk på tvers av ulike grupper i datasettet. For eksempel kan du beregne gjennomsnittlig salgspris og gjennomsnittlig kjørelengde for hver drivstofftype.

Før du oppsummerer, må du sørge for at kolonnen mileage er numerisk:

df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)

Base R

Funksjonen aggregate() kan brukes til å beregne grupperte statistikker. Funksjonen cbind() gjør det mulig å oppsummere flere numeriske kolonner samtidig.

aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)

dplyr

Gruppering og oppsummering kan også utføres ved hjelp av group_by() og summarise(). Denne tilnærmingen er vanligvis mer lesbar og enklere å utvide.

df %>%
  group_by(fuel) %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    mean_mileage = mean(mileage, na.rm = TRUE)
  )
question mark

Funksjonen aggregate() brukes i base R til å:

Select the correct answer

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 1. Kapittel 11
some-alt