Summary  
This chapter demonstrates how to compute pairwise correlation coefficients and generate a full correlation matrix for numeric variables—covering data type conversion, missing-value handling, and use of built-in functions.  

General domain of usage  
Data analysis

**Korrelaatioanalyysi** on tilastollinen menetelmä, jolla mitataan kahden numeerisen muuttujan välisen suhteen voimakkuutta ja suuntaa. Sen avulla voidaan ymmärtää, miten yhden muuttujan muutokset liittyvät toisen muuttujan muutoksiin.

## Mitä on korrelaatio?
Korrelaatiokerroin (yleensä merkittynä $$r$$) vaihtelee välillä -1 ja 1 ja tarkoittaa:
- **1**: täydellinen positiivinen korrelaatio;
- **0**: ei korrelaatiota;
- **−1**: täydellinen negatiivinen korrelaatio.

Korrelaatiomenetelmiä on useita, mutta Pearsonin korrelaatio on yleisimmin käytetty numeeriselle jatkuvalle datalle R:ssä.

## Korrelaatio kahden muuttujan välillä
Voit käyttää `cor()`-funktiota laskeaksesi korrelaatiokertoimen kahden muuttujan välillä. Tarvitset vain kaksi saraketta parametreiksi.
```
cor(df$selling_price, df$km_driven)
```
Tämän seurauksena funktio palauttaa arvon väliltä -1 ja 1.

## Korrelaatiomatriisi (useita muuttujia)
Samaa funktiota voidaan käyttää tarkastelemaan useiden muuttujien välisiä suhteita.
```
# Select only numeric columns
numeric_df <- df[, c("selling_price", "km_driven", "max_power", "mileage", "engine", "seats")]
# Compute correlation matrix
cor_matrix <- cor(numeric_df, use = "complete.obs")  # Ignores any rows with missing data
```
Tulos tallennetaan matriisina, joka näyttää valittujen numeeristen muuttujien väliset parittaiset korrelaatioarvot.

Hanki käytännön kokemusta datan analysoinnista R:llä oppimalla aineistojen puhdistamista, muokkaamista ja visualisointia. Tutustu keskeisiin työnkulkuihin, kuten datan valintaan ja suodattamiseen, puuttuvien arvojen käsittelyyn sekä tulosten tiivistämiseen. Vahvista osaamistasi datan valmistelussa oivalluksia, raportointia ja syvällisempää tilastollista tarkastelua varten.

Tutustu R:n tietoanalyysin perusteisiin. Opiskele työkalujen asennus, aineistojen lataaminen ja tarkastelu, tietojen valinta ja suodatus, datan lajittelu ja muuntaminen, puuttuvien arvojen käsittely sekä tulosten tiivistäminen syvempien oivallusten saavuttamiseksi.

Opi luomaan vaikuttavia visualisointeja ggplot2:lla. Luo pylväsdiagrammeja, histogrammeja, tiheyskäyriä ja hajontakuvioita sekä mukauta ja viimeistele niitä tyylivalinnoilla ja facetoinnilla syvempien oivallusten löytämiseksi datasta.

Syvennä ymmärrystäsi tilastotieteestä data-analyysissä. Käytä kuvailevia mittareita, tunnista ja käsittele poikkeavia havaintoja sekä hyödynnä korrelaatiotekniikoita visuaalisten työkalujen, kuten lämpökarttojen ja hajontakuvioiden, avulla merkityksellisten yhteyksien löytämiseksi.