Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Daten Zusammenfassen | Datenmanipulation und -Bereinigung
Datenanalyse Mit R

bookDaten Zusammenfassen

Datenzusammenfassung ist unerlässlich, um schnell einen Überblick über deren Struktur und Muster zu erhalten.

Schnelle Zusammenfassung des Datensatzes

Vor einer detaillierten Analyse ist es hilfreich, einen schnellen Überblick über den Datensatz zu erhalten. Dies ermöglicht ein Verständnis der Wertebereiche, Verteilungen und das Vorhandensein kategorialer Werte auf einen Blick. Die Funktion summary() kann hierfür verwendet werden.

summary(df)

Zusammenfassende Statistiken für eine einzelne Spalte

Es können grundlegende deskriptive Statistiken wie Mittelwert, Median und Standardabweichung für einzelne Spalten berechnet werden. Zum Beispiel wird hier gezeigt, wie die Spalte selling_price zusammengefasst werden kann.

Base R

Es stehen spezielle Funktionen wie mean(), median() und sd() zur Verfügung. Das Argument na.rm = TRUE stellt sicher, dass fehlende Werte bei der Berechnung ignoriert werden.

mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)

dplyr

Alle drei Statistiken können in einem Schritt mit der Funktion summarise() berechnet werden.

df %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    median_price = median(selling_price, na.rm = TRUE),
    sd_price = sd(selling_price, na.rm = TRUE)
  )

Zusammenfassen mehrerer Spalten nach Gruppen

Häufig sollen zusammenfassende Statistiken für verschiedene Gruppen im Datensatz verglichen werden. Beispielsweise kann der durchschnittliche Verkaufspreis und die durchschnittliche Laufleistung für jeden Kraftstofftyp berechnet werden.

Vor der Zusammenfassung sollte sichergestellt werden, dass die Spalte mileage numerisch ist:

df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)

Base R

Die Funktion aggregate() kann verwendet werden, um gruppierte Statistiken zu berechnen. Mit der Funktion cbind() lassen sich mehrere numerische Spalten gleichzeitig zusammenfassen.

aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)

dplyr

Gruppierung und Zusammenfassung können auch mit group_by() und summarise() durchgeführt werden. Dieser Ansatz ist in der Regel übersichtlicher und leichter zu erweitern.

df %>%
  group_by(fuel) %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    mean_mileage = mean(mileage, na.rm = TRUE)
  )
question mark

Die Funktion aggregate() wird in Base R verwendet, um:

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 11

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Suggested prompts:

What does the summary() function output look like?

How do I handle non-numeric columns when summarizing data?

Can you explain how to interpret the mean, median, and standard deviation results?

Awesome!

Completion rate improved to 4

bookDaten Zusammenfassen

Swipe um das Menü anzuzeigen

Datenzusammenfassung ist unerlässlich, um schnell einen Überblick über deren Struktur und Muster zu erhalten.

Schnelle Zusammenfassung des Datensatzes

Vor einer detaillierten Analyse ist es hilfreich, einen schnellen Überblick über den Datensatz zu erhalten. Dies ermöglicht ein Verständnis der Wertebereiche, Verteilungen und das Vorhandensein kategorialer Werte auf einen Blick. Die Funktion summary() kann hierfür verwendet werden.

summary(df)

Zusammenfassende Statistiken für eine einzelne Spalte

Es können grundlegende deskriptive Statistiken wie Mittelwert, Median und Standardabweichung für einzelne Spalten berechnet werden. Zum Beispiel wird hier gezeigt, wie die Spalte selling_price zusammengefasst werden kann.

Base R

Es stehen spezielle Funktionen wie mean(), median() und sd() zur Verfügung. Das Argument na.rm = TRUE stellt sicher, dass fehlende Werte bei der Berechnung ignoriert werden.

mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)

dplyr

Alle drei Statistiken können in einem Schritt mit der Funktion summarise() berechnet werden.

df %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    median_price = median(selling_price, na.rm = TRUE),
    sd_price = sd(selling_price, na.rm = TRUE)
  )

Zusammenfassen mehrerer Spalten nach Gruppen

Häufig sollen zusammenfassende Statistiken für verschiedene Gruppen im Datensatz verglichen werden. Beispielsweise kann der durchschnittliche Verkaufspreis und die durchschnittliche Laufleistung für jeden Kraftstofftyp berechnet werden.

Vor der Zusammenfassung sollte sichergestellt werden, dass die Spalte mileage numerisch ist:

df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)

Base R

Die Funktion aggregate() kann verwendet werden, um gruppierte Statistiken zu berechnen. Mit der Funktion cbind() lassen sich mehrere numerische Spalten gleichzeitig zusammenfassen.

aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)

dplyr

Gruppierung und Zusammenfassung können auch mit group_by() und summarise() durchgeführt werden. Dieser Ansatz ist in der Regel übersichtlicher und leichter zu erweitern.

df %>%
  group_by(fuel) %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    mean_mileage = mean(mileage, na.rm = TRUE)
  )
question mark

Die Funktion aggregate() wird in Base R verwendet, um:

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 11
some-alt