Datan Valinta – Edistyneet Tekniikat
Osaat jo valita yksittäisiä rivejä ja sarakkeita perusindeksoinnilla. Nyt on aika siirtyä pidemmälle ja tutustua siihen, miten voit valita useita rivejä ja sarakkeita sekä perus-R:llä että dplyr
-paketilla. Nämä tekniikat ovat olennaisia, kun haluat keskittyä tietyn osan aineistosta tarkasteluun tai valmistella dataa jatkoanalyysia varten.
Useiden sarakkeiden valinta
Perus R
Voit valita useita sarakkeita yhdistämällä niiden sijainnit tai nimet c()
-funktiolla. Tuloksena on pienempi data frame, joka sisältää vain määritetyt sarakkeet.
Sarakkeiden valinta sijaintien perusteella:
selected_data_base <- df[, c(1, 2, 3)]
Sarakkeiden valinta nimien perusteella:
selected_data_base <- df[, c("name", "selling_price", "transmission")]
dplyr
Voit käyttää select()
-funktiota ja välittää sarakkeiden nimet suoraan.
selected_data_dplyr <- df %>%
select(km_driven, fuel, transmission)
Yksittäisten arvojen indeksointi
Yksittäiseen arvoon pääsee käsiksi antamalla sekä rivin että sarakkeen numeron. Tämä on hyödyllistä yksittäisten datapisteiden tarkistamiseen tai virheenkorjaukseen.
df[1, 2] # accesses the value in row 1, column 2
Rivien viipalointi
Joskus halutaan käsitellä vain ensimmäisiä rivejä tai tiettyjä rivejä sijainnin perusteella.
Base R
Useiden rivien valinta määrittämällä ensimmäinen ja viimeinen indeksi, joiden väliin kirjoitetaan :
.
first_5_rows_base <- df[1:5, ]
dplyr
slice()
-funktion käyttö ja halutun rivivälin välittäminen funktiolle.
first_5_rows_dplyr <- df %>%
slice(1:5)
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
Can you explain the difference between selecting columns by position and by name in R?
How does the pipe operator improve code readability in dplyr?
Can you show how to select non-consecutive rows or columns using dplyr?
Awesome!
Completion rate improved to 4
Datan Valinta – Edistyneet Tekniikat
Pyyhkäise näyttääksesi valikon
Osaat jo valita yksittäisiä rivejä ja sarakkeita perusindeksoinnilla. Nyt on aika siirtyä pidemmälle ja tutustua siihen, miten voit valita useita rivejä ja sarakkeita sekä perus-R:llä että dplyr
-paketilla. Nämä tekniikat ovat olennaisia, kun haluat keskittyä tietyn osan aineistosta tarkasteluun tai valmistella dataa jatkoanalyysia varten.
Useiden sarakkeiden valinta
Perus R
Voit valita useita sarakkeita yhdistämällä niiden sijainnit tai nimet c()
-funktiolla. Tuloksena on pienempi data frame, joka sisältää vain määritetyt sarakkeet.
Sarakkeiden valinta sijaintien perusteella:
selected_data_base <- df[, c(1, 2, 3)]
Sarakkeiden valinta nimien perusteella:
selected_data_base <- df[, c("name", "selling_price", "transmission")]
dplyr
Voit käyttää select()
-funktiota ja välittää sarakkeiden nimet suoraan.
selected_data_dplyr <- df %>%
select(km_driven, fuel, transmission)
Yksittäisten arvojen indeksointi
Yksittäiseen arvoon pääsee käsiksi antamalla sekä rivin että sarakkeen numeron. Tämä on hyödyllistä yksittäisten datapisteiden tarkistamiseen tai virheenkorjaukseen.
df[1, 2] # accesses the value in row 1, column 2
Rivien viipalointi
Joskus halutaan käsitellä vain ensimmäisiä rivejä tai tiettyjä rivejä sijainnin perusteella.
Base R
Useiden rivien valinta määrittämällä ensimmäinen ja viimeinen indeksi, joiden väliin kirjoitetaan :
.
first_5_rows_base <- df[1:5, ]
dplyr
slice()
-funktion käyttö ja halutun rivivälin välittäminen funktiolle.
first_5_rows_dplyr <- df %>%
slice(1:5)
Kiitos palautteestasi!