Summary  
This chapter covers how to generate synthetic 2D data and apply hierarchical clustering by instantiating AgglomerativeClustering with various linkage methods, fitting it, and printing cluster labels. It also demonstrates computing a linkage matrix via SciPy and visualizing the resulting dendrogram.  

General domain of usage  
Unsupervised machine learning

Kuten tavallista, käytössä ovat seuraavat kirjastot:
- `sklearn` keinotekoisen datan luomiseen ja hierarkkisen klusteroinnin toteuttamiseen (`AgglomerativeClustering`);

- `scipy` dendrogrammin luomiseen ja käsittelyyn;

- `matplotlib` klustereiden ja dendrogrammin visualisointiin;

- `numpy` numeerisiin operaatioihin.

## Keinotekoisen datan luominen

`make_blobs()`-kirjaston `scikit-learn`-funktiolla voidaan luoda aineistoja, joissa on **eri määrä klustereita** ja **vaihtelevia erottelutasoja**. Näin voidaan havainnoida, miten hierarkkinen klusterointi toimii erilaisissa tilanteissa.

Yleinen algoritmi etenee seuraavasti:

1.  `AgglomerativeClustering`-olion luonti, jossa määritetään **linkage-menetelmä** ja muut parametrit;     

2.  Mallin sovittaminen dataan; 

3.  **Klusteritunnisteiden** poiminta, jos klustereiden määrä on päätetty;      

4.  Klustereiden visualisointi (jos data on 2D- tai 3D-muodossa) käyttäen **hajontakuvioita**;     

5.  SciPyn `linkage`-funktion käyttö **linkage-matriisin** luomiseen ja sen jälkeen **dendrogram**-funktion käyttö dendrogrammin visualisointiin. 


Voit myös kokeilla **eri linkage-menetelmiä** (esim. single, complete, average, Ward's) ja tarkastella, miten ne vaikuttavat klusteroinnin tuloksiin ja dendrogrammin rakenteeseen. 

Lataa tämän luvun koodi

Hanki vankka ymmärrys klusterianalyysistä, joka on keskeinen valvomattoman oppimisen menetelmä mallien löytämiseen merkitsemättömästä datasta. Tutustu K-Means-, hierarkkisen klusteroinnin, DBSCAN:n ja GMM-menetelmien perusteisiin sekä saa käytännön kokemusta oikeilla aineistoilla, jotta voit soveltaa klusterointia todellisiin ongelmiin.

Perehdy klusteroinnin perusteisiin ja selvitä, miten se eroaa luokittelusta. Tutustu keskeisiin algoritmeihin, työkaluihin ja kirjastoihin, jotka mahdollistavat tämän valvomattoman oppimisen menetelmän piilevien rakenteiden löytämiseksi datasta.

Perusteellinen ymmärrys keskeisistä esikäsittelymenetelmistä, jotka varmistavat tehokkaan klusteroinnin. Puuttuvien arvojen käsittely, kategoristen ominaisuuksien koodaus, datan normalisointi sekä sopivien etäisyysmittareiden ja linkitysten valinta klusteroinnin tarkkuuden parantamiseksi.

Hallitse taidot, joita tarvitaan K-Means-klusteroinnin tehokkaaseen soveltamiseen. Opi algoritmin toimintaperiaate, optimaalisen klusterimäärän määrittäminen sekä käytännön toteutus K-Means-menetelmällä synteettisiin ja todellisiin aineistoihin.

Tutustu hierarkkisen klusteroinnin perusteisiin ja opi ryhmittelemään dataa merkityksellisiin klustereihin dendrogrammien avulla. Vahvista osaamistasi optimaalisen klusterimäärän tunnistamisessa ja menetelmän soveltamisessa sekä synteettisiin että todellisiin aineistoihin.

Tutustu siihen, miten DBSCAN tunnistaa erimuotoisia klustereita ja käsittelee kohinaa aineistossa. Ymmärrä tämän tiheysperusteisen algoritmin toimintaperiaatteet, pisteiden liittäminen klustereihin sekä sen soveltaminen sekä synteettisiin että todellisiin aineistoihin.

Perusteellinen ymmärrys Gaussin sekoitusmalleista ja niiden todennäköisyyspohjaisesta tavasta mallintaa monimutkaisia klusterimuotoja. Gaussin jakauman periaatteet. GMM-mallien toimintaperiaatteet. Soveltaminen sekä esimerkkiaineistoon että todellisiin aineistoihin.

Toteutus Esimerkkiaineistolla

Keinotekoisen datan luominen

Toteutus Esimerkkiaineistolla

Keinotekoisen datan luominen