Summary  
This chapter covers how to compute and display descriptive statistics for entire datasets, individual columns, and grouped subsets—using both base functions (e.g., summary(), mean(), aggregate()) and dplyr verbs (group_by(), summarise())—while handling missing values and converting data types as needed.

General domain of usage  
Exploratory data analysis

**Sammanfattning av data** är avgörande för att snabbt få en förståelse för dess struktur och mönster.

## Snabb översikt av datasetet
Innan en detaljerad analys genomförs är det användbart att skapa en snabb översikt av datasetet. Detta hjälper dig att förstå intervall, fördelningar och förekomst av kategoriska värden på ett ögonblick. Du kan använda funktionen `summary()` för detta.
```
summary(df)
```

## Sammanfattande statistik för en enskild kolumn
Du kan beräkna grundläggande beskrivande statistik såsom medelvärde, median och standardavvikelse för enskilda kolumner. Här är till exempel hur du sammanfattar kolumnen `selling_price`.

### Base R
Det finns dedikerade funktioner som `mean()`, `median()` och `sd()` tillgängliga. Argumentet `na.rm = TRUE` säkerställer att saknade värden ignoreras vid beräkningen.

```
mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)
```

### dplyr
Du kan beräkna alla tre statistiska mått i ett enda steg med funktionen `summarise()`.

```
df %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    median_price = median(selling_price, na.rm = TRUE),
    sd_price = sd(selling_price, na.rm = TRUE)
  )
```

## Sammanfatta flera kolumner efter grupp

Ofta vill du jämföra sammanfattande statistik mellan olika grupper i din datamängd. Till exempel kan du beräkna genomsnittligt försäljningspris och genomsnittlig körsträcka för varje bränsletyp.

Innan du sammanfattar, säkerställ att kolumnen `mileage` är numerisk:
```
df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)
```

### Base R
Funktionen `aggregate()` kan användas för att beräkna grupperad statistik. Funktionen `cbind()` möjliggör summering av flera numeriska kolumner samtidigt.

```
aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)
```

### dplyr
Gruppering och summering kan också göras med `group_by()` och `summarise()`. Detta tillvägagångssätt är generellt mer lättläst och enklare att utöka.

```
df %>%
  group_by(fuel) %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    mean_mileage = mean(mileage, na.rm = TRUE)
  )
```

Ladda ner dataset

Ladda ner kapitelkod

Funktionen `aggregate()` används i base R för att:


Få praktisk erfarenhet av dataanalys med R genom att lära dig att rensa, transformera och visualisera dataset. Utforska viktiga arbetsflöden såsom att välja och filtrera data, hantera saknade värden och sammanfatta resultat. Bygg upp förtroende i att förbereda data för insikter, rapportering och djupare statistisk analys.

Utforska grunderna i dataanalys med R. Lär dig att installera verktyg, ladda och inspektera dataset, välja och filtrera information, sortera och transformera data, hantera saknade värden samt sammanfatta resultat för djupare insikter.

Lär dig att skapa övertygande visualiseringar med ggplot2. Skapa stapeldiagram, histogram, täthetsdiagram och spridningsdiagram, och anpassa samt förfina dem med stilinställningar och facettering för att avslöja djupare insikter i dina data.

Förstärk din förståelse för statistik inom dataanalys. Använd beskrivande mått, identifiera och hantera avvikare samt tillämpa korrelationstekniker med visuella verktyg såsom värmekartor och spridningsdiagram för att upptäcka meningsfulla samband.

Sammanfatta Data

Snabb översikt av datasetet

Sammanfattande statistik för en enskild kolumn

Base R

dplyr

Sammanfatta flera kolumner efter grupp

Base R

dplyr