Summary  
This chapter covers how to compute and display descriptive statistics for entire datasets, individual columns, and grouped subsets—using both base functions (e.g., summary(), mean(), aggregate()) and dplyr verbs (group_by(), summarise())—while handling missing values and converting data types as needed.

General domain of usage  
Exploratory data analysis

**Oppsummering av data** er avgjørende for å få en rask forståelse av struktur og mønstre.

## Rask oppsummering av datasettet
Før du utfører en detaljert analyse, er det nyttig å lage en rask oversikt over datasettet. Dette hjelper deg å forstå spenn, fordelinger og tilstedeværelse av kategoriske verdier på et øyeblikk. Du kan bruke funksjonen `summary()` til dette.
```
summary(df)
```

## Sammendragsstatistikk for én kolonne
Du kan beregne grunnleggende beskrivende statistikk som gjennomsnitt, median og standardavvik for individuelle kolonner. For eksempel, slik kan du oppsummere kolonnen `selling_price`.

### Base R
Dedikerte funksjoner som `mean()`, `median()` og `sd()` er tilgjengelige. Argumentet `na.rm = TRUE` sørger for at manglende verdier ignoreres under beregningen.

```
mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)
```

### dplyr
Alle tre statistikkene kan beregnes i ett steg med funksjonen `summarise()`.

```
df %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    median_price = median(selling_price, na.rm = TRUE),
    sd_price = sd(selling_price, na.rm = TRUE)
  )
```

## Oppsummering av flere kolonner etter gruppe

Ofte ønsker du å sammenligne oppsummerende statistikk på tvers av ulike grupper i datasettet. For eksempel kan du beregne gjennomsnittlig salgspris og gjennomsnittlig kjørelengde for hver drivstofftype.

Før oppsummering må du sørge for at kolonnen `mileage` er numerisk:
```
df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)
```

### Base R
Funksjonen `aggregate()` kan brukes til å beregne grupperte statistikker. Funksjonen `cbind()` gjør det mulig å oppsummere flere numeriske kolonner samtidig.

```
aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)
```

### dplyr
Gruppering og oppsummering kan også gjøres med `group_by()` og `summarise()`. Denne tilnærmingen er vanligvis mer lesbar og enklere å utvide.

```
df %>%
  group_by(fuel) %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    mean_mileage = mean(mileage, na.rm = TRUE)
  )
```

Last ned datasett

Last ned kapittelkode

`aggregate()`-funksjonen brukes i base R til å:


Få praktisk erfaring med dataanalyse i R ved å lære hvordan du rengjør, transformerer og visualiserer datasett. Utforsk essensielle arbeidsflyter som utvalg og filtrering av data, håndtering av manglende verdier og oppsummering av resultater. Bygg selvtillit i å forberede data for innsikt, rapportering og dypere statistisk utforskning.

Utforsk grunnleggende prinsipper for dataanalyse med R. Lær hvordan du installerer verktøyene, laster inn og inspiserer datasett, velger og filtrerer informasjon, sorterer og transformerer data, håndterer manglende verdier og oppsummerer resultater for dypere innsikt.

Lær å lage overbevisende visualiseringer med ggplot2. Bygg stolpediagrammer, histogrammer, tetthetsplott og spredningsplott, og tilpass og forbedre dem med stilvalg og fasettering for å avdekke dypere innsikt i dataene dine.

Styrk din forståelse av statistikk for dataanalyse. Bruk beskrivende mål, identifiser og håndter uteliggere, og anvend korrelasjonsteknikker med visuelle verktøy som varmekart og spredningsdiagrammer for å avdekke meningsfulle sammenhenger.

Oppsummering av Data

Rask oppsummering av datasettet

Sammendragsstatistikk for én kolonne

Base R

dplyr

Oppsummering av flere kolonner etter gruppe

Base R

dplyr