Summary  
This chapter introduces data normalization by applying min-max scaling and standard scaling to rescale numerical features to comparable ranges.  

General domain of usage  
Clustering algorithms

**Datan normalisointi** on olennainen esikäsittelyvaihe monille klusterointialgoritmeille, kuten K-meansille. Ominaisuudet todellisissa tietoaineistoissa ovat usein eri mittakaavoissa ja yksiköissä. Algoritmit, jotka perustuvat **etäisyyksien laskemiseen**, kuten K-means, voivat olla voimakkaasti riippuvaisia suurempien mittakaavojen ominaisuuksista. Normalisoinnin tavoitteena on tuoda kaikki ominaisuudet **samalle mittakaavalle**, jotta suurempiarvoiset ominaisuudet eivät hallitse klusterointiprosessia.

## StandardScaler

`StandardScaler` standardisoi ominaisuudet poistamalla keskiarvon ja skaalaamalla ne yksikkövarianssiin. Se muuntaa datan siten, että sillä on **keskiarvo 0** ja **keskihajonta 1**. Tämä saavutetaan vähentämällä **keskiarvo** ja jakamalla **keskihajonnalla** jokaiselle ominaisuudelle.

`StandardScaler` on tehokas, kun data on suunnilleen **normaalijakautunutta**. Sitä käytetään laajasti ja se on usein hyvä oletusnormalisointimenetelmä monille algoritmeille.

```python
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
features = df[['feature1', 'feature2']]

df[['feature1', 'feature2']] = scaler.fit_transform(features)
```

## MinMaxScaler

`MinMaxScaler` skaalaa ominaisuudet tietylle välille, tyypillisesti **0** ja **1** välille. Se muuntaa datan skaalaamalla ja siirtämällä jokaisen ominaisuuden erikseen niin, että se on annetulla välillä.

`MinMaxScaler` on hyödyllinen, kun tarvitset arvoja **tietyllä välillä** tai kun data ei ole normaalijakautunutta. Se säilyttää **alkuperäisen jakauman** muodon, vain skaalaa sen uuteen väliin.

```python
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
features = df[['feature1', 'feature2']]

df[['feature1', 'feature2']] = scaler.fit_transform(features)
``` 

Valinta `StandardScaler`in ja `MinMaxScaler`in välillä riippuu datasta ja käytettävästä algoritmista. `StandardScaler` on usein suositeltava algoritmeille kuten **K-means**, kun ominaisuudet ovat suunnilleen **normaalijakautuneita**. `MinMaxScaler` voi olla hyödyllinen, kun tarvitset **rajattuja arvoja** tai kun data ei ole normaalijakautunutta.

Miksi datan normalisointi on tärkeää käytettäessä klusterointialgoritmeja, kuten K-means?

Hanki vankka ymmärrys klusterianalyysistä, joka on keskeinen valvomattoman oppimisen menetelmä mallien löytämiseen merkitsemättömästä datasta. Tutustu K-Means-, hierarkkisen klusteroinnin, DBSCAN:n ja GMM-menetelmien perusteisiin sekä saa käytännön kokemusta oikeilla aineistoilla, jotta voit soveltaa klusterointia todellisiin ongelmiin.

Perehdy klusteroinnin perusteisiin ja selvitä, miten se eroaa luokittelusta. Tutustu keskeisiin algoritmeihin, työkaluihin ja kirjastoihin, jotka mahdollistavat tämän valvomattoman oppimisen menetelmän piilevien rakenteiden löytämiseksi datasta.

Perusteellinen ymmärrys keskeisistä esikäsittelymenetelmistä, jotka varmistavat tehokkaan klusteroinnin. Puuttuvien arvojen käsittely, kategoristen ominaisuuksien koodaus, datan normalisointi sekä sopivien etäisyysmittareiden ja linkitysten valinta klusteroinnin tarkkuuden parantamiseksi.

Hallitse taidot, joita tarvitaan K-Means-klusteroinnin tehokkaaseen soveltamiseen. Opi algoritmin toimintaperiaate, optimaalisen klusterimäärän määrittäminen sekä käytännön toteutus K-Means-menetelmällä synteettisiin ja todellisiin aineistoihin.

Tutustu hierarkkisen klusteroinnin perusteisiin ja opi ryhmittelemään dataa merkityksellisiin klustereihin dendrogrammien avulla. Vahvista osaamistasi optimaalisen klusterimäärän tunnistamisessa ja menetelmän soveltamisessa sekä synteettisiin että todellisiin aineistoihin.

Tutustu siihen, miten DBSCAN tunnistaa erimuotoisia klustereita ja käsittelee kohinaa aineistossa. Ymmärrä tämän tiheysperusteisen algoritmin toimintaperiaatteet, pisteiden liittäminen klustereihin sekä sen soveltaminen sekä synteettisiin että todellisiin aineistoihin.

Perusteellinen ymmärrys Gaussin sekoitusmalleista ja niiden todennäköisyyspohjaisesta tavasta mallintaa monimutkaisia klusterimuotoja. Gaussin jakauman periaatteet. GMM-mallien toimintaperiaatteet. Soveltaminen sekä esimerkkiaineistoon että todellisiin aineistoihin.

Datan Normalisointi

StandardScaler

MinMaxScaler