Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Daten Zusammenfassen | Datenmanipulation und -Bereinigung
Datenanalyse Mit R

bookDaten Zusammenfassen

Daten zusammenfassen ist entscheidend, um schnell einen Überblick über deren Struktur und Muster zu erhalten.

Schnelle Zusammenfassung des Datensatzes

Bevor eine detaillierte Analyse durchgeführt wird, ist es hilfreich, einen schnellen Überblick über den Datensatz zu erstellen. Dies ermöglicht es, Bereiche, Verteilungen und das Vorhandensein von kategorialen Werten auf einen Blick zu erkennen. Die Funktion summary() kann hierfür verwendet werden.

summary(df)

Zusammenfassende Statistiken für eine einzelne Spalte

Es können grundlegende deskriptive Statistiken wie Mittelwert, Median und Standardabweichung für einzelne Spalten berechnet werden. Zum Beispiel lässt sich die Spalte selling_price wie folgt zusammenfassen.

Base R

Es stehen spezielle Funktionen wie mean(), median() und sd() zur Verfügung. Das Argument na.rm = TRUE stellt sicher, dass fehlende Werte bei der Berechnung ignoriert werden.

mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)

dplyr

Alle drei Statistiken können in einem Schritt mit der Funktion summarise() berechnet werden.

df %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    median_price = median(selling_price, na.rm = TRUE),
    sd_price = sd(selling_price, na.rm = TRUE)
  )

Zusammenfassen mehrerer Spalten nach Gruppen

Häufig besteht der Wunsch, zusammenfassende Statistiken für verschiedene Gruppen im Datensatz zu vergleichen. Beispielsweise kann der durchschnittliche Verkaufspreis und die durchschnittliche Laufleistung für jede Kraftstoffart berechnet werden.

Vor der Zusammenfassung sollte sichergestellt werden, dass die Spalte mileage numerisch ist:

df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)

Base R

Die Funktion aggregate() kann verwendet werden, um gruppierte Statistiken zu berechnen. Mit der Funktion cbind() lassen sich mehrere numerische Spalten gleichzeitig zusammenfassen.

aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)

dplyr

Gruppierung und Zusammenfassung können auch mit group_by() und summarise() durchgeführt werden. Dieser Ansatz ist in der Regel übersichtlicher und leichter zu erweitern.

df %>%
  group_by(fuel) %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    mean_mileage = mean(mileage, na.rm = TRUE)
  )
question mark

Die Funktion aggregate() wird in Base R verwendet, um:

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 11

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Awesome!

Completion rate improved to 4

bookDaten Zusammenfassen

Swipe um das Menü anzuzeigen

Daten zusammenfassen ist entscheidend, um schnell einen Überblick über deren Struktur und Muster zu erhalten.

Schnelle Zusammenfassung des Datensatzes

Bevor eine detaillierte Analyse durchgeführt wird, ist es hilfreich, einen schnellen Überblick über den Datensatz zu erstellen. Dies ermöglicht es, Bereiche, Verteilungen und das Vorhandensein von kategorialen Werten auf einen Blick zu erkennen. Die Funktion summary() kann hierfür verwendet werden.

summary(df)

Zusammenfassende Statistiken für eine einzelne Spalte

Es können grundlegende deskriptive Statistiken wie Mittelwert, Median und Standardabweichung für einzelne Spalten berechnet werden. Zum Beispiel lässt sich die Spalte selling_price wie folgt zusammenfassen.

Base R

Es stehen spezielle Funktionen wie mean(), median() und sd() zur Verfügung. Das Argument na.rm = TRUE stellt sicher, dass fehlende Werte bei der Berechnung ignoriert werden.

mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)

dplyr

Alle drei Statistiken können in einem Schritt mit der Funktion summarise() berechnet werden.

df %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    median_price = median(selling_price, na.rm = TRUE),
    sd_price = sd(selling_price, na.rm = TRUE)
  )

Zusammenfassen mehrerer Spalten nach Gruppen

Häufig besteht der Wunsch, zusammenfassende Statistiken für verschiedene Gruppen im Datensatz zu vergleichen. Beispielsweise kann der durchschnittliche Verkaufspreis und die durchschnittliche Laufleistung für jede Kraftstoffart berechnet werden.

Vor der Zusammenfassung sollte sichergestellt werden, dass die Spalte mileage numerisch ist:

df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)

Base R

Die Funktion aggregate() kann verwendet werden, um gruppierte Statistiken zu berechnen. Mit der Funktion cbind() lassen sich mehrere numerische Spalten gleichzeitig zusammenfassen.

aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)

dplyr

Gruppierung und Zusammenfassung können auch mit group_by() und summarise() durchgeführt werden. Dieser Ansatz ist in der Regel übersichtlicher und leichter zu erweitern.

df %>%
  group_by(fuel) %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    mean_mileage = mean(mileage, na.rm = TRUE)
  )
question mark

Die Funktion aggregate() wird in Base R verwendet, um:

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 11
some-alt