Summary  
Shows how to perform hierarchical clustering by generating synthetic data, computing linkage matrices with various linkage methods, fitting an AgglomerativeClustering model to extract cluster labels, and visualizing both the clusters and their dendrogram.  

General domain of usage  
Unsupervised machine learning

Kuten tavallista, käytät seuraavia kirjastoja:
- `sklearn` keinotekoisen datan luomiseen ja hierarkkisen klusteroinnin toteuttamiseen (`AgglomerativeClustering`);

- `scipy` dendrogrammin luomiseen ja käsittelyyn;

- `matplotlib` klustereiden ja dendrogrammin visualisointiin;

- `numpy` numeerisiin operaatioihin.

## Keinotekoisen datan luominen

Voit käyttää `make_blobs()`-kirjaston `scikit-learn`-funktiota luodaksesi aineistoja, joissa on **eri määrä klustereita** ja **vaihtelevia erottuvuuksia**. Tämä auttaa havainnoimaan, miten hierarkkinen klusterointi toimii erilaisissa tilanteissa.

Yleinen algoritmi etenee seuraavasti:

1.  Instanssoit `AgglomerativeClustering`-olion ja määrittelet **linkitysmenetelmän** sekä muut parametrit;

2.  Sovitat mallin dataasi;

3.  Voit poimia **klusteritunnisteet**, jos päätät tietyn klustereiden määrän;

4.  Visualisoit klusterit (jos data on 2D- tai 3D-muodossa) käyttäen **hajontakuvioita**;

5.  Käytät SciPyn `linkage`-funktiota luodaksesi **linkitysmatriisin** ja sitten **dendrogram**-funktiota dendrogrammin visualisointiin.


Voit myös kokeilla **eri linkitysmenetelmiä** (esim. single, complete, average, Ward's) ja tarkastella, miten ne vaikuttavat klusterointituloksiin ja dendrogrammin rakenteeseen.

Mitä `scikit-learn`-luokkaa käytetään hierarkkisen klusteroinnin suorittamiseen dummy-aineistolla?

Tutustu piilevien rakenteiden tunnistamiseen ohjaamattoman oppimisen avulla. Hallitse keskeisimmät klusterointialgoritmit, kuten K-Means, hierarkkinen klusterointi, DBSCAN ja Gaussin seosmallit. Opettele arvioimaan klusteroinnin laatua WSS- ja Silhouette-mittareilla, käsittelemään erilaisia etäisyysmittareita sekä toteuttamaan kestäviä ratkaisuja aidoilla aineistoilla. Kehitä osaamista asiakassegmentoinnissa ja rakenteiden löytämisessä merkitsemättömästä datasta Scikit-learnin avulla.

Toteutus Esimerkkiaineistolla

Keinotekoisen datan luominen

Toteutus Esimerkkiaineistolla

Keinotekoisen datan luominen