Datan Valinta – Edistyneet Tekniikat
Pyyhkäise näyttääksesi valikon
Osaat jo valita yksittäisiä rivejä ja sarakkeita perusindeksoinnilla. Nyt on aika mennä pidemmälle ja tutustua siihen, miten voit valita useita rivejä ja sarakkeita sekä perus-R:llä että dplyr-paketilla. Nämä tekniikat ovat olennaisia, kun haluat keskittyä tietyn osan aineistoon tai valmistella dataa jatkoanalyysia varten.
Useiden sarakkeiden valinta
Perus R
Voit valita useita sarakkeita yhdistämällä niiden sijainnit tai nimet c()-funktiolla. Tuloksena on pienempi data frame, joka sisältää vain määritetyt sarakkeet.
Sarakkeiden valinta sijaintien perusteella:
selected_data_base <- df[, c(1, 2, 3)]
Sarakkeiden valinta nimien perusteella:
selected_data_base <- df[, c("name", "selling_price", "transmission")]
dplyr
Voit käyttää select()-funktiota ja välittää sarakkeiden nimet suoraan.
selected_data_dplyr <- df %>%
select(km_driven, fuel, transmission)
Yksittäisten arvojen indeksointi
Yksittäisen arvon hakemiseen annetaan sekä rivin että sarakkeen numerot. Hyödyllinen yksittäisten tietopisteiden tarkistamiseen tai virheiden etsintään.
df[1, 2] # accesses the value in row 1, column 2
Rivien viipalointi
Joskus halutaan käsitellä vain ensimmäisiä rivejä tai tiettyjä rivejä sijainnin perusteella.
Base R
Voit valita useita rivejä määrittämällä ensimmäisen ja viimeisen indeksin ja kirjoittamalla niiden väliin :.
first_5_rows_base <- df[1:5, ]
dplyr
Voit käyttää slice()-funktiota ja antaa sille haluamasi rivivälin.
first_5_rows_dplyr <- df %>%
slice(1:5)
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme