Deskriptiv Statistikk
Å forstå dataene dine begynner med beskrivende statistikk – dette gir essensielle oppsummeringer om fordeling, sentraltendens og spredning av variabler.
Grunnleggende beskrivende statistikk
De vanligste statistiske målene er:
- Gjennomsnitt: gjennomsnittsverdi;
- Standardavvik: hvor mye verdiene avviker fra gjennomsnittet;
- Median: midtverdi;
- Min / maks: minste og største verdi.
Disse gir en rask oversikt over hvordan variablene dine er fordelt.
Base R
Base R tilbyr enkle funksjoner for å beregne beskrivende statistikk. Funksjonen summary()
gir også en rask statistisk oversikt over alle numeriske kolonner.
mean(df$max_power, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
min(df$mileage, na.rm = TRUE)
max(df$mileage, na.rm = TRUE)
summary(df)
dplyr
Med dplyr
kan du bruke summarise()
for å beregne flere statistikker samtidig i et ryddig og lesbart format.
df %>%
summarise(
avg_power = mean(max_power, na.rm = TRUE),
sd_power = sd(max_power, na.rm = TRUE),
median_power = median(max_power, na.rm = TRUE)
)
Takk for tilbakemeldingene dine!
Spør AI
Spør AI
Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår
Awesome!
Completion rate improved to 4
Deskriptiv Statistikk
Sveip for å vise menyen
Å forstå dataene dine begynner med beskrivende statistikk – dette gir essensielle oppsummeringer om fordeling, sentraltendens og spredning av variabler.
Grunnleggende beskrivende statistikk
De vanligste statistiske målene er:
- Gjennomsnitt: gjennomsnittsverdi;
- Standardavvik: hvor mye verdiene avviker fra gjennomsnittet;
- Median: midtverdi;
- Min / maks: minste og største verdi.
Disse gir en rask oversikt over hvordan variablene dine er fordelt.
Base R
Base R tilbyr enkle funksjoner for å beregne beskrivende statistikk. Funksjonen summary()
gir også en rask statistisk oversikt over alle numeriske kolonner.
mean(df$max_power, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
min(df$mileage, na.rm = TRUE)
max(df$mileage, na.rm = TRUE)
summary(df)
dplyr
Med dplyr
kan du bruke summarise()
for å beregne flere statistikker samtidig i et ryddig og lesbart format.
df %>%
summarise(
avg_power = mean(max_power, na.rm = TRUE),
sd_power = sd(max_power, na.rm = TRUE),
median_power = median(max_power, na.rm = TRUE)
)
Takk for tilbakemeldingene dine!