Summary  
This chapter covers how to compute and display descriptive statistics for entire datasets, individual columns, and grouped subsets—using both base functions (e.g., summary(), mean(), aggregate()) and dplyr verbs (group_by(), summarise())—while handling missing values and converting data types as needed.

General domain of usage  
Exploratory data analysis

**Datenzusammenfassung** ist entscheidend, um schnell einen Überblick über deren Struktur und Muster zu erhalten.

## Schnelle Zusammenfassung des Datensatzes
Bevor eine detaillierte Analyse durchgeführt wird, ist es hilfreich, einen schnellen Überblick über den Datensatz zu erhalten. Dies ermöglicht ein Verständnis der Wertebereiche, Verteilungen und das Vorhandensein kategorialer Werte auf einen Blick. Die Funktion `summary()` kann hierfür verwendet werden.
```
summary(df)
```

## Zusammenfassende Statistiken für eine einzelne Spalte
Es können grundlegende deskriptive Statistiken wie Mittelwert, Median und Standardabweichung für einzelne Spalten berechnet werden. Zum Beispiel lässt sich so die Spalte `selling_price` zusammenfassen.

### Base R
Es stehen spezielle Funktionen wie `mean()`, `median()` und `sd()` zur Verfügung. Das Argument `na.rm = TRUE` stellt sicher, dass fehlende Werte bei der Berechnung ignoriert werden.

```
mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)
```

### dplyr
Alle drei Statistiken können in einem Schritt mit der Funktion `summarise()` berechnet werden.

```
df %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    median_price = median(selling_price, na.rm = TRUE),
    sd_price = sd(selling_price, na.rm = TRUE)
  )
```

## Zusammenfassen mehrerer Spalten nach Gruppen

Oft sollen Vergleichswerte für verschiedene Gruppen im Datensatz berechnet werden. Beispielsweise kann der durchschnittliche Verkaufspreis und die durchschnittliche Laufleistung für jeden Kraftstofftyp berechnet werden.

Vor der Zusammenfassung sollte sichergestellt werden, dass die Spalte `mileage` numerisch ist:
```
df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)
```

### Base R
Die Funktion `aggregate()` kann verwendet werden, um gruppierte Statistiken zu berechnen. Mit der Funktion `cbind()` lassen sich mehrere numerische Spalten gleichzeitig zusammenfassen.

```
aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)
```

### dplyr
Gruppierung und Zusammenfassung können auch mit `group_by()` und `summarise()` durchgeführt werden. Dieser Ansatz ist in der Regel übersichtlicher und leichter zu erweitern.

```
df %>%
  group_by(fuel) %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    mean_mileage = mean(mileage, na.rm = TRUE)
  )
```

Datensatz herunterladen

Kapitel-Code herunterladen

Die Funktion `aggregate()` wird in Base R verwendet, um:


Sammeln Sie praktische Erfahrungen in der Datenanalyse mit R, indem Sie lernen, Datensätze zu bereinigen, zu transformieren und zu visualisieren. Erkunden Sie grundlegende Arbeitsabläufe wie das Auswählen und Filtern von Daten, den Umgang mit fehlenden Werten und das Zusammenfassen von Ergebnissen. Stärken Sie Ihr Vertrauen in die Vorbereitung von Daten für Erkenntnisse, Berichte und weiterführende statistische Analysen.

Erkunden Sie die Grundlagen der Datenanalyse mit R. Erfahren Sie, wie Sie die Werkzeuge installieren, Datensätze laden und inspizieren, Informationen auswählen und filtern, Daten sortieren und transformieren, fehlende Werte behandeln und Ergebnisse für tiefere Einblicke zusammenfassen.

Erlernen der Erstellung aussagekräftiger Visualisierungen mit ggplot2. Erstellung von Balkendiagrammen, Histogrammen, Dichteplots und Streudiagrammen sowie Anpassung und Verfeinerung dieser mit Stiloptionen und Facettierung zur Aufdeckung tieferer Einblicke in die Daten.

Vertiefung des Verständnisses von Statistik für die Datenanalyse. Anwendung beschreibender Kennzahlen, Identifikation und Behandlung von Ausreißern sowie Nutzung von Korrelationsmethoden mit visuellen Werkzeugen wie Heatmaps und Streudiagrammen zur Aufdeckung signifikanter Zusammenhänge.

Daten Zusammenfassen

Schnelle Zusammenfassung des Datensatzes

Zusammenfassende Statistiken für eine einzelne Spalte

Base R

dplyr

Zusammenfassen mehrerer Spalten nach Gruppen

Base R

dplyr