Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Datenauswahl – Fortgeschrittene Techniken | Datenmanipulation und -Bereinigung
Datenanalyse Mit R

bookDatenauswahl – Fortgeschrittene Techniken

Sie wissen bereits, wie Sie einzelne Zeilen und Spalten mit grundlegender Indizierung auswählen. Nun ist es an der Zeit, einen Schritt weiterzugehen und zu erkunden, wie Sie mehrere Zeilen und Spalten sowohl mit Basis-R als auch mit dem Paket dplyr auswählen können. Diese Techniken sind unerlässlich, wenn Sie sich auf bestimmte Teile eines Datensatzes konzentrieren oder Ihre Daten für weitere Analysen vorbereiten möchten.

Auswahl mehrerer Spalten

Basis R

Mehrere Spalten können ausgewählt werden, indem deren Positionen oder Namen mit der Funktion c() kombiniert werden. Das Ergebnis ist ein kleineres Data Frame, das nur die angegebenen Spalten enthält.

Verwendung von Spaltenpositionen:

selected_data_base <- df[, c(1, 2, 3)]

Verwendung von Spaltennamen:

selected_data_base <- df[, c("name", "selling_price", "transmission")]

dplyr

Mit der Funktion select() können die Spaltennamen direkt übergeben werden.

selected_data_dplyr <- df %>%
  select(km_driven, fuel, transmission)

Indizierung einzelner Werte

Um auf einen bestimmten Wert zuzugreifen, sowohl die Zeilen- als auch die Spaltennummer angeben. Dies ist nützlich, um einzelne Datenpunkte zu überprüfen oder zu debuggen.

df[1, 2]  # accesses the value in row 1, column 2

Zeilen-Slicing

Manchmal möchte man nur mit den ersten Zeilen oder bestimmten Zeilen anhand ihrer Position arbeiten.

Base R

Mehrere Zeilen können ausgewählt werden, indem der erste und der letzte Index angegeben und ein : dazwischen geschrieben wird.

first_5_rows_base <- df[1:5, ]

dplyr

Die Funktion slice() kann verwendet werden, um den gewünschten Bereich von Zeilen auszuwählen.

first_5_rows_dplyr <- df %>%
  slice(1:5)
question mark

Was macht df[1:5, ]?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 5

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Suggested prompts:

Can you explain the difference between selecting columns by position and by name in R?

How does the pipe operator improve code readability in dplyr?

Can you show how to select non-consecutive rows or columns using dplyr?

Awesome!

Completion rate improved to 4

bookDatenauswahl – Fortgeschrittene Techniken

Swipe um das Menü anzuzeigen

Sie wissen bereits, wie Sie einzelne Zeilen und Spalten mit grundlegender Indizierung auswählen. Nun ist es an der Zeit, einen Schritt weiterzugehen und zu erkunden, wie Sie mehrere Zeilen und Spalten sowohl mit Basis-R als auch mit dem Paket dplyr auswählen können. Diese Techniken sind unerlässlich, wenn Sie sich auf bestimmte Teile eines Datensatzes konzentrieren oder Ihre Daten für weitere Analysen vorbereiten möchten.

Auswahl mehrerer Spalten

Basis R

Mehrere Spalten können ausgewählt werden, indem deren Positionen oder Namen mit der Funktion c() kombiniert werden. Das Ergebnis ist ein kleineres Data Frame, das nur die angegebenen Spalten enthält.

Verwendung von Spaltenpositionen:

selected_data_base <- df[, c(1, 2, 3)]

Verwendung von Spaltennamen:

selected_data_base <- df[, c("name", "selling_price", "transmission")]

dplyr

Mit der Funktion select() können die Spaltennamen direkt übergeben werden.

selected_data_dplyr <- df %>%
  select(km_driven, fuel, transmission)

Indizierung einzelner Werte

Um auf einen bestimmten Wert zuzugreifen, sowohl die Zeilen- als auch die Spaltennummer angeben. Dies ist nützlich, um einzelne Datenpunkte zu überprüfen oder zu debuggen.

df[1, 2]  # accesses the value in row 1, column 2

Zeilen-Slicing

Manchmal möchte man nur mit den ersten Zeilen oder bestimmten Zeilen anhand ihrer Position arbeiten.

Base R

Mehrere Zeilen können ausgewählt werden, indem der erste und der letzte Index angegeben und ein : dazwischen geschrieben wird.

first_5_rows_base <- df[1:5, ]

dplyr

Die Funktion slice() kann verwendet werden, um den gewünschten Bereich von Zeilen auszuwählen.

first_5_rows_dplyr <- df %>%
  slice(1:5)
question mark

Was macht df[1:5, ]?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 5
some-alt