Datenauswahl – Fortgeschrittene Techniken
Sie wissen bereits, wie Sie einzelne Zeilen und Spalten mit grundlegender Indizierung auswählen. Nun ist es an der Zeit, einen Schritt weiterzugehen und zu erkunden, wie Sie mehrere Zeilen und Spalten sowohl mit Basis-R als auch mit dem Paket dplyr
auswählen können. Diese Techniken sind unerlässlich, wenn Sie sich auf bestimmte Teile eines Datensatzes konzentrieren oder Ihre Daten für weitere Analysen vorbereiten möchten.
Auswahl mehrerer Spalten
Basis R
Mehrere Spalten können ausgewählt werden, indem deren Positionen oder Namen mit der Funktion c()
kombiniert werden. Das Ergebnis ist ein kleineres Data Frame, das nur die angegebenen Spalten enthält.
Verwendung von Spaltenpositionen:
selected_data_base <- df[, c(1, 2, 3)]
Verwendung von Spaltennamen:
selected_data_base <- df[, c("name", "selling_price", "transmission")]
dplyr
Mit der Funktion select()
können die Spaltennamen direkt übergeben werden.
selected_data_dplyr <- df %>%
select(km_driven, fuel, transmission)
Indizierung einzelner Werte
Um auf einen bestimmten Wert zuzugreifen, sowohl die Zeilen- als auch die Spaltennummer angeben. Dies ist nützlich, um einzelne Datenpunkte zu überprüfen oder zu debuggen.
df[1, 2] # accesses the value in row 1, column 2
Zeilen-Slicing
Manchmal möchte man nur mit den ersten Zeilen oder bestimmten Zeilen anhand ihrer Position arbeiten.
Base R
Mehrere Zeilen können ausgewählt werden, indem der erste und der letzte Index angegeben und ein :
dazwischen geschrieben wird.
first_5_rows_base <- df[1:5, ]
dplyr
Die Funktion slice()
kann verwendet werden, um den gewünschten Bereich von Zeilen auszuwählen.
first_5_rows_dplyr <- df %>%
slice(1:5)
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen
Can you explain the difference between selecting columns by position and by name in R?
How does the pipe operator improve code readability in dplyr?
Can you show how to select non-consecutive rows or columns using dplyr?
Awesome!
Completion rate improved to 4
Datenauswahl – Fortgeschrittene Techniken
Swipe um das Menü anzuzeigen
Sie wissen bereits, wie Sie einzelne Zeilen und Spalten mit grundlegender Indizierung auswählen. Nun ist es an der Zeit, einen Schritt weiterzugehen und zu erkunden, wie Sie mehrere Zeilen und Spalten sowohl mit Basis-R als auch mit dem Paket dplyr
auswählen können. Diese Techniken sind unerlässlich, wenn Sie sich auf bestimmte Teile eines Datensatzes konzentrieren oder Ihre Daten für weitere Analysen vorbereiten möchten.
Auswahl mehrerer Spalten
Basis R
Mehrere Spalten können ausgewählt werden, indem deren Positionen oder Namen mit der Funktion c()
kombiniert werden. Das Ergebnis ist ein kleineres Data Frame, das nur die angegebenen Spalten enthält.
Verwendung von Spaltenpositionen:
selected_data_base <- df[, c(1, 2, 3)]
Verwendung von Spaltennamen:
selected_data_base <- df[, c("name", "selling_price", "transmission")]
dplyr
Mit der Funktion select()
können die Spaltennamen direkt übergeben werden.
selected_data_dplyr <- df %>%
select(km_driven, fuel, transmission)
Indizierung einzelner Werte
Um auf einen bestimmten Wert zuzugreifen, sowohl die Zeilen- als auch die Spaltennummer angeben. Dies ist nützlich, um einzelne Datenpunkte zu überprüfen oder zu debuggen.
df[1, 2] # accesses the value in row 1, column 2
Zeilen-Slicing
Manchmal möchte man nur mit den ersten Zeilen oder bestimmten Zeilen anhand ihrer Position arbeiten.
Base R
Mehrere Zeilen können ausgewählt werden, indem der erste und der letzte Index angegeben und ein :
dazwischen geschrieben wird.
first_5_rows_base <- df[1:5, ]
dplyr
Die Funktion slice()
kann verwendet werden, um den gewünschten Bereich von Zeilen auszuwählen.
first_5_rows_dplyr <- df %>%
slice(1:5)
Danke für Ihr Feedback!