Oppsummering av Data
Oppsummering av data er avgjørende for å få en rask forståelse av datastrukturen og mønstre.
Rask oppsummering av datasettet
Før du utfører en detaljert analyse, er det nyttig å generere en rask oversikt over datasettet. Dette hjelper deg å forstå spenn, fordelinger og tilstedeværelse av kategoriske verdier ved første øyekast. Du kan bruke funksjonen summary()
til dette.
summary(df)
Sammendragsstatistikk for én kolonne
Du kan beregne grunnleggende beskrivende statistikk som gjennomsnitt, median og standardavvik for individuelle kolonner. For eksempel, slik kan du oppsummere kolonnen selling_price
.
Base R
Det finnes dedikerte funksjoner som mean()
, median()
og sd()
tilgjengelig. Argumentet na.rm = TRUE
sørger for at manglende verdier ignoreres under beregningen.
mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)
dplyr
Du kan beregne alle tre statistikkene i ett steg med funksjonen summarise()
.
df %>%
summarise(
mean_price = mean(selling_price, na.rm = TRUE),
median_price = median(selling_price, na.rm = TRUE),
sd_price = sd(selling_price, na.rm = TRUE)
)
Oppsummering av flere kolonner etter gruppe
Ofte ønsker du å sammenligne oppsummerende statistikk på tvers av ulike grupper i datasettet. For eksempel kan du beregne gjennomsnittlig salgspris og gjennomsnittlig kjørelengde for hver drivstofftype.
Før du oppsummerer, må du sørge for at kolonnen mileage
er numerisk:
df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)
Base R
Funksjonen aggregate()
kan brukes til å beregne grupperte statistikker. Funksjonen cbind()
gjør det mulig å oppsummere flere numeriske kolonner samtidig.
aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)
dplyr
Gruppering og oppsummering kan også utføres ved hjelp av group_by()
og summarise()
. Denne tilnærmingen er vanligvis mer lesbar og enklere å utvide.
df %>%
group_by(fuel) %>%
summarise(
mean_price = mean(selling_price, na.rm = TRUE),
mean_mileage = mean(mileage, na.rm = TRUE)
)
Takk for tilbakemeldingene dine!
Spør AI
Spør AI
Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår
Awesome!
Completion rate improved to 4
Oppsummering av Data
Sveip for å vise menyen
Oppsummering av data er avgjørende for å få en rask forståelse av datastrukturen og mønstre.
Rask oppsummering av datasettet
Før du utfører en detaljert analyse, er det nyttig å generere en rask oversikt over datasettet. Dette hjelper deg å forstå spenn, fordelinger og tilstedeværelse av kategoriske verdier ved første øyekast. Du kan bruke funksjonen summary()
til dette.
summary(df)
Sammendragsstatistikk for én kolonne
Du kan beregne grunnleggende beskrivende statistikk som gjennomsnitt, median og standardavvik for individuelle kolonner. For eksempel, slik kan du oppsummere kolonnen selling_price
.
Base R
Det finnes dedikerte funksjoner som mean()
, median()
og sd()
tilgjengelig. Argumentet na.rm = TRUE
sørger for at manglende verdier ignoreres under beregningen.
mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)
dplyr
Du kan beregne alle tre statistikkene i ett steg med funksjonen summarise()
.
df %>%
summarise(
mean_price = mean(selling_price, na.rm = TRUE),
median_price = median(selling_price, na.rm = TRUE),
sd_price = sd(selling_price, na.rm = TRUE)
)
Oppsummering av flere kolonner etter gruppe
Ofte ønsker du å sammenligne oppsummerende statistikk på tvers av ulike grupper i datasettet. For eksempel kan du beregne gjennomsnittlig salgspris og gjennomsnittlig kjørelengde for hver drivstofftype.
Før du oppsummerer, må du sørge for at kolonnen mileage
er numerisk:
df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)
Base R
Funksjonen aggregate()
kan brukes til å beregne grupperte statistikker. Funksjonen cbind()
gjør det mulig å oppsummere flere numeriske kolonner samtidig.
aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)
dplyr
Gruppering og oppsummering kan også utføres ved hjelp av group_by()
og summarise()
. Denne tilnærmingen er vanligvis mer lesbar og enklere å utvide.
df %>%
group_by(fuel) %>%
summarise(
mean_price = mean(selling_price, na.rm = TRUE),
mean_mileage = mean(mileage, na.rm = TRUE)
)
Takk for tilbakemeldingene dine!