Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Oppsummering av Data | Datamanipulering og -rensing
Dataanalyse med R

bookOppsummering av Data

Oppsummering av data er avgjørende for å få en rask forståelse av datastrukturen og mønstre.

Rask oppsummering av datasettet

Før du utfører en detaljert analyse, er det nyttig å generere en rask oversikt over datasettet. Dette hjelper deg å forstå spenn, fordelinger og tilstedeværelse av kategoriske verdier ved første øyekast. Du kan bruke funksjonen summary() til dette.

summary(df)

Sammendragsstatistikk for én kolonne

Du kan beregne grunnleggende beskrivende statistikk som gjennomsnitt, median og standardavvik for individuelle kolonner. For eksempel, slik oppsummerer du kolonnen selling_price.

Base R

Dedikerte funksjoner som mean(), median() og sd() er tilgjengelige. Argumentet na.rm = TRUE sørger for at manglende verdier ignoreres under beregningen.

mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)

dplyr

Alle tre statistikkene kan beregnes i ett steg med funksjonen summarise().

df %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    median_price = median(selling_price, na.rm = TRUE),
    sd_price = sd(selling_price, na.rm = TRUE)
  )

Oppsummering av flere kolonner etter gruppe

Ofte er det ønskelig å sammenligne oppsummerende statistikk på tvers av ulike grupper i datasettet. For eksempel kan gjennomsnittlig salgspris og gjennomsnittlig kjørelengde beregnes for hver drivstofftype.

Før oppsummering må du kontrollere at kolonnen mileage er numerisk:

df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)

Base R

Funksjonen aggregate() kan brukes til å beregne grupperte statistikker. Funksjonen cbind() gjør det mulig å oppsummere flere numeriske kolonner samtidig.

aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)

dplyr

Gruppering og oppsummering kan også utføres med group_by() og summarise(). Denne tilnærmingen er vanligvis mer lesbar og enklere å utvide.

df %>%
  group_by(fuel) %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    mean_mileage = mean(mileage, na.rm = TRUE)
  )
question mark

Funksjonen aggregate() brukes i base R til å:

Select the correct answer

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 1. Kapittel 11

Spør AI

expand

Spør AI

ChatGPT

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Suggested prompts:

What does the summary() function output look like?

How do I handle non-numeric columns when summarizing data?

Can you explain how to interpret the mean, median, and standard deviation results?

Awesome!

Completion rate improved to 4

bookOppsummering av Data

Sveip for å vise menyen

Oppsummering av data er avgjørende for å få en rask forståelse av datastrukturen og mønstre.

Rask oppsummering av datasettet

Før du utfører en detaljert analyse, er det nyttig å generere en rask oversikt over datasettet. Dette hjelper deg å forstå spenn, fordelinger og tilstedeværelse av kategoriske verdier ved første øyekast. Du kan bruke funksjonen summary() til dette.

summary(df)

Sammendragsstatistikk for én kolonne

Du kan beregne grunnleggende beskrivende statistikk som gjennomsnitt, median og standardavvik for individuelle kolonner. For eksempel, slik oppsummerer du kolonnen selling_price.

Base R

Dedikerte funksjoner som mean(), median() og sd() er tilgjengelige. Argumentet na.rm = TRUE sørger for at manglende verdier ignoreres under beregningen.

mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)

dplyr

Alle tre statistikkene kan beregnes i ett steg med funksjonen summarise().

df %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    median_price = median(selling_price, na.rm = TRUE),
    sd_price = sd(selling_price, na.rm = TRUE)
  )

Oppsummering av flere kolonner etter gruppe

Ofte er det ønskelig å sammenligne oppsummerende statistikk på tvers av ulike grupper i datasettet. For eksempel kan gjennomsnittlig salgspris og gjennomsnittlig kjørelengde beregnes for hver drivstofftype.

Før oppsummering må du kontrollere at kolonnen mileage er numerisk:

df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)

Base R

Funksjonen aggregate() kan brukes til å beregne grupperte statistikker. Funksjonen cbind() gjør det mulig å oppsummere flere numeriske kolonner samtidig.

aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)

dplyr

Gruppering og oppsummering kan også utføres med group_by() og summarise(). Denne tilnærmingen er vanligvis mer lesbar og enklere å utvide.

df %>%
  group_by(fuel) %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    mean_mileage = mean(mileage, na.rm = TRUE)
  )
question mark

Funksjonen aggregate() brukes i base R til å:

Select the correct answer

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 1. Kapittel 11
some-alt