Summary  
This chapter covers basic data selection in R, demonstrating how to subset datasets by choosing specific rows and columns using numeric indexing (`[ , ]`) and the `$` operator, and it contrasts the base R and dplyr approaches.  

General domain of usage  
Automotive market data analysis

Kun tietoaineisto on ladattu **R**-ympäristöön, on tärkeää osata käsitellä sen tiettyjä osia. Tämä tarkoittaa tiettyjen rivien ja sarakkeiden valitsemista, joihin halutaan keskittyä. Olipa kyseessä datan puhdistus tai tiettyjen trendien analysointi, tehokas aineiston osittaminen on olennaista.

## Tietoaineiston lataaminen
Ennen kuin dataa voidaan käsitellä, se täytyy ladata ja tarkastella:

```
library(tidyverse) # load the tidyverse package
df <- read_csv("car_details.csv")  # read the dataset
View(df) # open the dataset in a spreadsheet-style viewer
```

## Rivien valitseminen
R:ssä rivejä voidaan valita niiden numeerisen sijainnin perusteella. Koska indeksointi alkaa yhdestä, komento `df[3, ]` palauttaa tietoaineiston kolmannen rivin.

```
df[3, ]
```

## Sarakkeen valitseminen sijainnin perusteella
Samoin kuin rivejä, voit valita sarakkeen sen numeerisen sijainnin perusteella. Jättämällä rivin indeksin tyhjäksi ja määrittämällä sarakkeen indeksin, `df[, 5]` palauttaa aineiston viidennen sarakkeen.

```
df[, 5]
```


## Sarakkeen valitseminen nimen perusteella
Voit myös hakea sarakkeen suoraan sen nimellä käyttämällä `$`-operaattoria. Tämä tarjoaa nopean ja selkeän tavan hakea yksittäinen sarake. Esimerkiksi `df$km_driven` valitsee sarakkeen nimeltä **km\_driven**.

```
view(df$km_driven)
```


Lataa aineisto

Lataa luvun koodi

Mitä symbolia käytetään sarakkeen nimen mukaiseen viittaamiseen base R:ssä?

Hanki käytännön kokemusta datan analysoinnista R:llä oppimalla aineistojen puhdistamista, muokkaamista ja visualisointia. Tutustu keskeisiin työnkulkuihin, kuten datan valintaan ja suodattamiseen, puuttuvien arvojen käsittelyyn sekä tulosten tiivistämiseen. Vahvista osaamistasi datan valmistelussa oivalluksia, raportointia ja syvällisempää tilastollista tarkastelua varten.

Tutustu R:n tietoanalyysin perusteisiin. Opiskele työkalujen asennus, aineistojen lataaminen ja tarkastelu, tietojen valinta ja suodatus, datan lajittelu ja muuntaminen, puuttuvien arvojen käsittely sekä tulosten tiivistäminen syvempien oivallusten saavuttamiseksi.

Opi luomaan vaikuttavia visualisointeja ggplot2:lla. Luo pylväsdiagrammeja, histogrammeja, tiheyskäyriä ja hajontakuvioita sekä mukauta ja viimeistele niitä tyylivalinnoilla ja facetoinnilla syvempien oivallusten löytämiseksi datasta.

Syvennä ymmärrystäsi tilastotieteestä data-analyysissä. Käytä kuvailevia mittareita, tunnista ja käsittele poikkeavia havaintoja sekä hyödynnä korrelaatiotekniikoita visuaalisten työkalujen, kuten lämpökarttojen ja hajontakuvioiden, avulla merkityksellisten yhteyksien löytämiseksi.

Datan Valinta – Perusteet

Tietoaineiston lataaminen

Rivien valitseminen

Sarakkeen valitseminen sijainnin perusteella

Sarakkeen valitseminen nimen perusteella