Oppsummering av Data
Oppsummering av data er avgjørende for å få en rask forståelse av datastrukturen og mønstre.
Rask oppsummering av datasettet
Før du utfører en detaljert analyse, er det nyttig å generere en rask oversikt over datasettet. Dette hjelper deg å forstå spenn, fordelinger og tilstedeværelse av kategoriske verdier ved første øyekast. Du kan bruke funksjonen summary()
til dette.
summary(df)
Sammendragsstatistikk for én kolonne
Du kan beregne grunnleggende beskrivende statistikk som gjennomsnitt, median og standardavvik for individuelle kolonner. For eksempel, slik oppsummerer du kolonnen selling_price
.
Base R
Dedikerte funksjoner som mean()
, median()
og sd()
er tilgjengelige. Argumentet na.rm = TRUE
sørger for at manglende verdier ignoreres under beregningen.
mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)
dplyr
Alle tre statistikkene kan beregnes i ett steg med funksjonen summarise()
.
df %>%
summarise(
mean_price = mean(selling_price, na.rm = TRUE),
median_price = median(selling_price, na.rm = TRUE),
sd_price = sd(selling_price, na.rm = TRUE)
)
Oppsummering av flere kolonner etter gruppe
Ofte er det ønskelig å sammenligne oppsummerende statistikk på tvers av ulike grupper i datasettet. For eksempel kan gjennomsnittlig salgspris og gjennomsnittlig kjørelengde beregnes for hver drivstofftype.
Før oppsummering må du kontrollere at kolonnen mileage
er numerisk:
df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)
Base R
Funksjonen aggregate()
kan brukes til å beregne grupperte statistikker. Funksjonen cbind()
gjør det mulig å oppsummere flere numeriske kolonner samtidig.
aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)
dplyr
Gruppering og oppsummering kan også utføres med group_by()
og summarise()
. Denne tilnærmingen er vanligvis mer lesbar og enklere å utvide.
df %>%
group_by(fuel) %>%
summarise(
mean_price = mean(selling_price, na.rm = TRUE),
mean_mileage = mean(mileage, na.rm = TRUE)
)
Takk for tilbakemeldingene dine!
Spør AI
Spør AI
Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår
What does the summary() function output look like?
How do I handle non-numeric columns when summarizing data?
Can you explain how to interpret the mean, median, and standard deviation results?
Awesome!
Completion rate improved to 4
Oppsummering av Data
Sveip for å vise menyen
Oppsummering av data er avgjørende for å få en rask forståelse av datastrukturen og mønstre.
Rask oppsummering av datasettet
Før du utfører en detaljert analyse, er det nyttig å generere en rask oversikt over datasettet. Dette hjelper deg å forstå spenn, fordelinger og tilstedeværelse av kategoriske verdier ved første øyekast. Du kan bruke funksjonen summary()
til dette.
summary(df)
Sammendragsstatistikk for én kolonne
Du kan beregne grunnleggende beskrivende statistikk som gjennomsnitt, median og standardavvik for individuelle kolonner. For eksempel, slik oppsummerer du kolonnen selling_price
.
Base R
Dedikerte funksjoner som mean()
, median()
og sd()
er tilgjengelige. Argumentet na.rm = TRUE
sørger for at manglende verdier ignoreres under beregningen.
mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)
dplyr
Alle tre statistikkene kan beregnes i ett steg med funksjonen summarise()
.
df %>%
summarise(
mean_price = mean(selling_price, na.rm = TRUE),
median_price = median(selling_price, na.rm = TRUE),
sd_price = sd(selling_price, na.rm = TRUE)
)
Oppsummering av flere kolonner etter gruppe
Ofte er det ønskelig å sammenligne oppsummerende statistikk på tvers av ulike grupper i datasettet. For eksempel kan gjennomsnittlig salgspris og gjennomsnittlig kjørelengde beregnes for hver drivstofftype.
Før oppsummering må du kontrollere at kolonnen mileage
er numerisk:
df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)
Base R
Funksjonen aggregate()
kan brukes til å beregne grupperte statistikker. Funksjonen cbind()
gjør det mulig å oppsummere flere numeriske kolonner samtidig.
aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)
dplyr
Gruppering og oppsummering kan også utføres med group_by()
og summarise()
. Denne tilnærmingen er vanligvis mer lesbar og enklere å utvide.
df %>%
group_by(fuel) %>%
summarise(
mean_price = mean(selling_price, na.rm = TRUE),
mean_mileage = mean(mileage, na.rm = TRUE)
)
Takk for tilbakemeldingene dine!