Daten Zusammenfassen
Daten zusammenfassen ist entscheidend, um schnell einen Überblick über deren Struktur und Muster zu erhalten.
Schnelle Zusammenfassung des Datensatzes
Bevor eine detaillierte Analyse durchgeführt wird, ist es hilfreich, einen schnellen Überblick über den Datensatz zu erstellen. Dies ermöglicht es, Bereiche, Verteilungen und das Vorhandensein von kategorialen Werten auf einen Blick zu erkennen. Die Funktion summary()
kann hierfür verwendet werden.
summary(df)
Zusammenfassende Statistiken für eine einzelne Spalte
Es können grundlegende deskriptive Statistiken wie Mittelwert, Median und Standardabweichung für einzelne Spalten berechnet werden. Zum Beispiel lässt sich die Spalte selling_price
wie folgt zusammenfassen.
Base R
Es stehen spezielle Funktionen wie mean()
, median()
und sd()
zur Verfügung. Das Argument na.rm = TRUE
stellt sicher, dass fehlende Werte bei der Berechnung ignoriert werden.
mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)
dplyr
Alle drei Statistiken können in einem Schritt mit der Funktion summarise()
berechnet werden.
df %>%
summarise(
mean_price = mean(selling_price, na.rm = TRUE),
median_price = median(selling_price, na.rm = TRUE),
sd_price = sd(selling_price, na.rm = TRUE)
)
Zusammenfassen mehrerer Spalten nach Gruppen
Häufig besteht der Wunsch, zusammenfassende Statistiken für verschiedene Gruppen im Datensatz zu vergleichen. Beispielsweise kann der durchschnittliche Verkaufspreis und die durchschnittliche Laufleistung für jede Kraftstoffart berechnet werden.
Vor der Zusammenfassung sollte sichergestellt werden, dass die Spalte mileage
numerisch ist:
df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)
Base R
Die Funktion aggregate()
kann verwendet werden, um gruppierte Statistiken zu berechnen. Mit der Funktion cbind()
lassen sich mehrere numerische Spalten gleichzeitig zusammenfassen.
aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)
dplyr
Gruppierung und Zusammenfassung können auch mit group_by()
und summarise()
durchgeführt werden. Dieser Ansatz ist in der Regel übersichtlicher und leichter zu erweitern.
df %>%
group_by(fuel) %>%
summarise(
mean_price = mean(selling_price, na.rm = TRUE),
mean_mileage = mean(mileage, na.rm = TRUE)
)
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen
Awesome!
Completion rate improved to 4
Daten Zusammenfassen
Swipe um das Menü anzuzeigen
Daten zusammenfassen ist entscheidend, um schnell einen Überblick über deren Struktur und Muster zu erhalten.
Schnelle Zusammenfassung des Datensatzes
Bevor eine detaillierte Analyse durchgeführt wird, ist es hilfreich, einen schnellen Überblick über den Datensatz zu erstellen. Dies ermöglicht es, Bereiche, Verteilungen und das Vorhandensein von kategorialen Werten auf einen Blick zu erkennen. Die Funktion summary()
kann hierfür verwendet werden.
summary(df)
Zusammenfassende Statistiken für eine einzelne Spalte
Es können grundlegende deskriptive Statistiken wie Mittelwert, Median und Standardabweichung für einzelne Spalten berechnet werden. Zum Beispiel lässt sich die Spalte selling_price
wie folgt zusammenfassen.
Base R
Es stehen spezielle Funktionen wie mean()
, median()
und sd()
zur Verfügung. Das Argument na.rm = TRUE
stellt sicher, dass fehlende Werte bei der Berechnung ignoriert werden.
mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)
dplyr
Alle drei Statistiken können in einem Schritt mit der Funktion summarise()
berechnet werden.
df %>%
summarise(
mean_price = mean(selling_price, na.rm = TRUE),
median_price = median(selling_price, na.rm = TRUE),
sd_price = sd(selling_price, na.rm = TRUE)
)
Zusammenfassen mehrerer Spalten nach Gruppen
Häufig besteht der Wunsch, zusammenfassende Statistiken für verschiedene Gruppen im Datensatz zu vergleichen. Beispielsweise kann der durchschnittliche Verkaufspreis und die durchschnittliche Laufleistung für jede Kraftstoffart berechnet werden.
Vor der Zusammenfassung sollte sichergestellt werden, dass die Spalte mileage
numerisch ist:
df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)
Base R
Die Funktion aggregate()
kann verwendet werden, um gruppierte Statistiken zu berechnen. Mit der Funktion cbind()
lassen sich mehrere numerische Spalten gleichzeitig zusammenfassen.
aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)
dplyr
Gruppierung und Zusammenfassung können auch mit group_by()
und summarise()
durchgeführt werden. Dieser Ansatz ist in der Regel übersichtlicher und leichter zu erweitern.
df %>%
group_by(fuel) %>%
summarise(
mean_price = mean(selling_price, na.rm = TRUE),
mean_mileage = mean(mileage, na.rm = TRUE)
)
Danke für Ihr Feedback!