Datenauswahl – Fortgeschrittene Techniken
Sie wissen bereits, wie Sie einzelne Zeilen und Spalten mit grundlegender Indizierung auswählen. Nun ist es an der Zeit, einen Schritt weiterzugehen und zu erkunden, wie Sie mehrere Zeilen und Spalten sowohl mit Basis-R als auch mit dem Paket dplyr
auswählen können. Diese Techniken sind unerlässlich, wenn Sie sich auf bestimmte Teile eines Datensatzes konzentrieren oder Ihre Daten für weitere Analysen vorbereiten möchten.
Auswahl mehrerer Spalten
Basis R
Mehrere Spalten können ausgewählt werden, indem deren Positionen oder Namen mit der Funktion c()
kombiniert werden. Das Ergebnis ist ein kleineres Data Frame, das nur die angegebenen Spalten enthält.
Verwendung von Spaltenpositionen:
selected_data_base <- df[, c(1, 2, 3)]
Verwendung von Spaltennamen:
selected_data_base <- df[, c("name", "selling_price", "transmission")]
dplyr
Mit der Funktion select()
können die Spaltennamen direkt übergeben werden.
selected_data_dplyr <- df %>%
select(km_driven, fuel, transmission)
Indizierung einzelner Werte
Um auf einen bestimmten Wert zuzugreifen, sowohl die Zeilen- als auch die Spaltennummer angeben. Dies ist nützlich, um einzelne Datenpunkte zu überprüfen oder zu debuggen.
df[1, 2] # accesses the value in row 1, column 2
Zeilen auswählen
Manchmal ist es sinnvoll, nur mit den ersten Zeilen oder bestimmten Zeilen anhand ihrer Position zu arbeiten.
Base R
Mehrere Zeilen können ausgewählt werden, indem der erste und der letzte Index angegeben und ein :
dazwischen geschrieben wird.
first_5_rows_base <- df[1:5, ]
dplyr
Die Funktion slice()
kann verwendet werden, um den gewünschten Bereich von Zeilen auszuwählen.
first_5_rows_dplyr <- df %>%
slice(1:5)
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen
Awesome!
Completion rate improved to 4
Datenauswahl – Fortgeschrittene Techniken
Swipe um das Menü anzuzeigen
Sie wissen bereits, wie Sie einzelne Zeilen und Spalten mit grundlegender Indizierung auswählen. Nun ist es an der Zeit, einen Schritt weiterzugehen und zu erkunden, wie Sie mehrere Zeilen und Spalten sowohl mit Basis-R als auch mit dem Paket dplyr
auswählen können. Diese Techniken sind unerlässlich, wenn Sie sich auf bestimmte Teile eines Datensatzes konzentrieren oder Ihre Daten für weitere Analysen vorbereiten möchten.
Auswahl mehrerer Spalten
Basis R
Mehrere Spalten können ausgewählt werden, indem deren Positionen oder Namen mit der Funktion c()
kombiniert werden. Das Ergebnis ist ein kleineres Data Frame, das nur die angegebenen Spalten enthält.
Verwendung von Spaltenpositionen:
selected_data_base <- df[, c(1, 2, 3)]
Verwendung von Spaltennamen:
selected_data_base <- df[, c("name", "selling_price", "transmission")]
dplyr
Mit der Funktion select()
können die Spaltennamen direkt übergeben werden.
selected_data_dplyr <- df %>%
select(km_driven, fuel, transmission)
Indizierung einzelner Werte
Um auf einen bestimmten Wert zuzugreifen, sowohl die Zeilen- als auch die Spaltennummer angeben. Dies ist nützlich, um einzelne Datenpunkte zu überprüfen oder zu debuggen.
df[1, 2] # accesses the value in row 1, column 2
Zeilen auswählen
Manchmal ist es sinnvoll, nur mit den ersten Zeilen oder bestimmten Zeilen anhand ihrer Position zu arbeiten.
Base R
Mehrere Zeilen können ausgewählt werden, indem der erste und der letzte Index angegeben und ein :
dazwischen geschrieben wird.
first_5_rows_base <- df[1:5, ]
dplyr
Die Funktion slice()
kann verwendet werden, um den gewünschten Bereich von Zeilen auszuwählen.
first_5_rows_dplyr <- df %>%
slice(1:5)
Danke für Ihr Feedback!