Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Datan Valinta – Edistyneet Tekniikat | Datan Käsittely ja Puhdistus
Datan analysointi R:llä

bookDatan Valinta – Edistyneet Tekniikat

Osaat jo valita yksittäisiä rivejä ja sarakkeita perusindeksoinnin avulla. Nyt on aika siirtyä pidemmälle ja tutustua siihen, miten voit valita useita rivejä ja sarakkeita sekä perus-R:llä että dplyr-paketilla. Nämä tekniikat ovat olennaisia, kun haluat keskittyä tietyn osan aineistosta tarkasteluun tai valmistella dataa jatkoanalyysia varten.

Useiden sarakkeiden valinta

Perus R

Voit valita useita sarakkeita yhdistämällä niiden sijainnit tai nimet c()-funktiolla. Tuloksena on pienempi data frame, joka sisältää vain määritellyt sarakkeet.

Sarakkeiden sijaintien avulla:

selected_data_base <- df[, c(1, 2, 3)]

Sarakkeiden nimien avulla:

selected_data_base <- df[, c("name", "selling_price", "transmission")]

dplyr

Voit käyttää select()-funktiota ja välittää sarakkeiden nimet suoraan.

selected_data_dplyr <- df %>%
  select(km_driven, fuel, transmission)

Yksittäisten arvojen indeksointi

Yksittäiseen arvoon pääsee käsiksi antamalla sekä rivin että sarakkeen numeron. Tämä on hyödyllistä yksittäisten tietopisteiden tarkistamiseen tai virheenkorjaukseen.

df[1, 2]  # accesses the value in row 1, column 2

Rivien viipalointi

Joskus haluat käsitellä vain ensimmäisiä rivejä tai tiettyjä rivejä sijainnin perusteella.

Base R

Voit valita useita rivejä määrittämällä ensimmäisen ja viimeisen indeksin ja kirjoittamalla niiden väliin :.

first_5_rows_base <- df[1:5, ]

dplyr

Voit käyttää slice()-funktiota ja antaa sille haluamasi rivivälin.

first_5_rows_dplyr <- df %>%
  slice(1:5)
question mark

Mitä df[1:5, ] tekee?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 1. Luku 5

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Awesome!

Completion rate improved to 4

bookDatan Valinta – Edistyneet Tekniikat

Pyyhkäise näyttääksesi valikon

Osaat jo valita yksittäisiä rivejä ja sarakkeita perusindeksoinnin avulla. Nyt on aika siirtyä pidemmälle ja tutustua siihen, miten voit valita useita rivejä ja sarakkeita sekä perus-R:llä että dplyr-paketilla. Nämä tekniikat ovat olennaisia, kun haluat keskittyä tietyn osan aineistosta tarkasteluun tai valmistella dataa jatkoanalyysia varten.

Useiden sarakkeiden valinta

Perus R

Voit valita useita sarakkeita yhdistämällä niiden sijainnit tai nimet c()-funktiolla. Tuloksena on pienempi data frame, joka sisältää vain määritellyt sarakkeet.

Sarakkeiden sijaintien avulla:

selected_data_base <- df[, c(1, 2, 3)]

Sarakkeiden nimien avulla:

selected_data_base <- df[, c("name", "selling_price", "transmission")]

dplyr

Voit käyttää select()-funktiota ja välittää sarakkeiden nimet suoraan.

selected_data_dplyr <- df %>%
  select(km_driven, fuel, transmission)

Yksittäisten arvojen indeksointi

Yksittäiseen arvoon pääsee käsiksi antamalla sekä rivin että sarakkeen numeron. Tämä on hyödyllistä yksittäisten tietopisteiden tarkistamiseen tai virheenkorjaukseen.

df[1, 2]  # accesses the value in row 1, column 2

Rivien viipalointi

Joskus haluat käsitellä vain ensimmäisiä rivejä tai tiettyjä rivejä sijainnin perusteella.

Base R

Voit valita useita rivejä määrittämällä ensimmäisen ja viimeisen indeksin ja kirjoittamalla niiden väliin :.

first_5_rows_base <- df[1:5, ]

dplyr

Voit käyttää slice()-funktiota ja antaa sille haluamasi rivivälin.

first_5_rows_dplyr <- df %>%
  slice(1:5)
question mark

Mitä df[1:5, ] tekee?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 1. Luku 5
some-alt