Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Datan Valinta – Perusteet | Datan Käsittely ja Puhdistus
Datan Analysointi R:llä

bookDatan Valinta – Perusteet

Kun tietoaineisto on ladattu R-ympäristöön, on tärkeää oppia työskentelemään sen yksittäisten osien kanssa. Tämä tarkoittaa tiettyjen rivien ja sarakkeiden valitsemista, joihin halutaan keskittyä. Olipa kyseessä datan puhdistus tai tiettyjen trendien analysointi, tehokas aineiston osajoukon valinta on olennaista.

Tietoaineiston lataaminen

Ennen kuin tietoja voidaan käsitellä, ne täytyy ladata ja tarkastella:

library(tidyverse) # load the tidyverse package
df <- read_csv("car_details.csv")  # read the dataset
View(df) # open the dataset in a spreadsheet-style viewer

Rivien valinta

R:ssä rivejä voidaan valita niiden numeerisen sijainnin perusteella. Koska indeksointi alkaa arvosta 1, kirjoittamalla df[3, ] palautetaan tietoaineiston kolmas rivi.

df[3, ]

Sarakkeen valitseminen sijainnin perusteella

Samoin kuin rivejä, voit valita sarakkeen sen numeerisen sijainnin perusteella. Jättämällä rivin indeksin tyhjäksi ja määrittämällä sarakeindeksin, df[, 5] palauttaa aineiston viidennen sarakkeen.

df[, 5]

Sarakkeen valitseminen nimen perusteella

Voit myös hakea sarakkeen suoraan sen nimellä käyttämällä $-operaattoria. Tämä tarjoaa nopean ja selkeän tavan poimia yksittäinen sarake. Esimerkiksi df$km_driven valitsee sarakkeen nimeltä km_driven.

view(df$km_driven)
question mark

Mitä symbolia käytetään sarakkeen hakemiseen nimen perusteella base R:ssä?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 1. Luku 4

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Awesome!

Completion rate improved to 4

bookDatan Valinta – Perusteet

Pyyhkäise näyttääksesi valikon

Kun tietoaineisto on ladattu R-ympäristöön, on tärkeää oppia työskentelemään sen yksittäisten osien kanssa. Tämä tarkoittaa tiettyjen rivien ja sarakkeiden valitsemista, joihin halutaan keskittyä. Olipa kyseessä datan puhdistus tai tiettyjen trendien analysointi, tehokas aineiston osajoukon valinta on olennaista.

Tietoaineiston lataaminen

Ennen kuin tietoja voidaan käsitellä, ne täytyy ladata ja tarkastella:

library(tidyverse) # load the tidyverse package
df <- read_csv("car_details.csv")  # read the dataset
View(df) # open the dataset in a spreadsheet-style viewer

Rivien valinta

R:ssä rivejä voidaan valita niiden numeerisen sijainnin perusteella. Koska indeksointi alkaa arvosta 1, kirjoittamalla df[3, ] palautetaan tietoaineiston kolmas rivi.

df[3, ]

Sarakkeen valitseminen sijainnin perusteella

Samoin kuin rivejä, voit valita sarakkeen sen numeerisen sijainnin perusteella. Jättämällä rivin indeksin tyhjäksi ja määrittämällä sarakeindeksin, df[, 5] palauttaa aineiston viidennen sarakkeen.

df[, 5]

Sarakkeen valitseminen nimen perusteella

Voit myös hakea sarakkeen suoraan sen nimellä käyttämällä $-operaattoria. Tämä tarjoaa nopean ja selkeän tavan poimia yksittäinen sarake. Esimerkiksi df$km_driven valitsee sarakkeen nimeltä km_driven.

view(df$km_driven)
question mark

Mitä symbolia käytetään sarakkeen hakemiseen nimen perusteella base R:ssä?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 1. Luku 4
some-alt