Datenauswahl – Fortgeschrittene Techniken
Swipe um das Menü anzuzeigen
Sie wissen bereits, wie Sie einzelne Zeilen und Spalten mit einfachem Indexieren auswählen. Nun ist es an der Zeit, einen Schritt weiterzugehen und zu erkunden, wie Sie mehrere Zeilen und Spalten sowohl mit Basis-R als auch mit dem Paket dplyr auswählen können. Diese Techniken sind unerlässlich, wenn Sie sich auf bestimmte Teile eines Datensatzes konzentrieren oder Ihre Daten für weitere Analysen vorbereiten möchten.
Auswahl mehrerer Spalten
Basis R
Mehrere Spalten können ausgewählt werden, indem deren Positionen oder Namen mit der Funktion c() kombiniert werden. Das Ergebnis ist ein kleineres Data Frame, das nur die angegebenen Spalten enthält.
Verwendung von Spaltenpositionen:
selected_data_base <- df[, c(1, 2, 3)]
Verwendung von Spaltennamen:
selected_data_base <- df[, c("name", "selling_price", "transmission")]
dplyr
Mit der Funktion select() können die Spaltennamen direkt übergeben werden.
selected_data_dplyr <- df %>%
select(km_driven, fuel, transmission)
Indizierung einzelner Werte
Um auf einen bestimmten Wert zuzugreifen, werden sowohl die Zeilen- als auch die Spaltennummer angegeben. Dies ist nützlich, um einzelne Datenpunkte zu überprüfen oder zu debuggen.
df[1, 2] # accesses the value in row 1, column 2
Zeilen auswählen
Manchmal sollen nur die ersten Zeilen oder bestimmte Zeilen anhand ihrer Position verwendet werden.
Base R
Mehrere Zeilen können ausgewählt werden, indem der erste und der letzte Index angegeben und dazwischen ein : geschrieben wird.
first_5_rows_base <- df[1:5, ]
dplyr
Die Funktion slice() kann verwendet werden, um den gewünschten Zeilenbereich auszuwählen.
first_5_rows_dplyr <- df %>%
slice(1:5)
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen