Summary  
This chapter explains the agglomerative hierarchical clustering algorithm, where each data point starts as its own cluster and clusters are successively merged based on chosen linkage-based distance measures, with the final cluster hierarchy visualized as a dendrogram.

General domain of usage  
Unsupervised machine learning

**Hierarkisk klynging** er en metode for klyngeanalyse som søker å bygge et hierarki av klynger. **I motsetning til K-means** krever den ikke at du forhåndsdefinerer antall klynger.

Definisjon

Algoritmen kan enten starte med **hver observasjon i sin egen klynge** og deretter gradvis slå dem sammen (agglomerativ klynging), eller starte med **alle observasjoner i én klynge** og deretter dele dem opp i mindre klynger (divisiv klynging).

Siden **agglomerativ klynging** er den mest brukte tilnærmingen, vil vi fokusere på denne.

Den vanligste typen hierarkisk klynging er **bottom-up**-tilnærmingen. Algoritmen er som følger:

1.  **Initialisering:** hver datapunkt behandles som en egen klynge; 

2.  **Beregn nærhetsmatrise:** beregn avstanden mellom hvert par av klynger; 

3.  **Slå sammen klynger:** de to nærmeste klyngene slås sammen til én klynge; 

4.  **Oppdater nærhetsmatrise:** beregn avstandene på nytt mellom den nye klyngen og alle gjenværende klynger; 

5.  **Gjenta:** trinn 3 og 4 gjentas til alle datapunktene er slått sammen til én klynge.


## Koblingstyper 

Nærheten mellom to klynger defineres av **koblingstypen**. Vanlige koblingsmetoder brukt i hierarkisk klynging er:
 

*   **Enkeltkobling:** avstanden mellom de to nærmeste punktene i de to klyngene; 

*   **Fullstendig kobling:** avstanden mellom de to fjerneste punktene i de to klyngene;    

*   **Gjennomsnittskobling:** gjennomsnittlig avstand mellom alle punktpar i de to klyngene;

*   **Wards metode:** minimerer økningen i total varians innenfor klyngene når to klynger slås sammen.

Valg av koblingsmetode kan påvirke **formen** og **strukturen** til de resulterende klyngene. Eksperimentering og fagkunnskap er ofte nyttig for å velge den beste metoden for dine data.

## Dendrogram

Resultatene av hierarkisk klynging visualiseres ofte ved hjelp av et **dendrogram**.

Et **dendrogram** er et trelignende diagram som viser det hierarkiske forholdet mellom klyngene. Høyden på grenene i dendrogrammet representerer **avstanden mellom klyngene**.

Hva er hovedkarakteristikken ved bottom-up (agglomerativ) hierarkisk klynging?

Få en solid forståelse av klyngeanalyse, en sentral usupervisert læringsteknikk for å avdekke mønstre i umerkede data. Utforsk det grunnleggende innen K-Means, hierarkisk klyngeanalyse, DBSCAN og GMM-er, og få praktisk erfaring med ekte datasett for å bygge selvtillit i anvendelse av klyngeanalyse på reelle problemer.

Fordyp deg i det grunnleggende innen klyngeanalyse og oppdag hvordan det skiller seg fra klassifisering. Utforsk sentrale algoritmer, verktøy og biblioteker som driver denne teknikken for ikke-veiledet læring for å avdekke skjulte mønstre i data.

Få en grundig forståelse av sentrale forhåndsbehandlingsteknikker som sikrer effektiv klyngeanalyse. Lær hvordan man håndterer manglende verdier, koder kategoriske egenskaper, normaliserer data og velger passende avstandsmål og koblinger for å øke nøyaktigheten i klyngeanalysen.

Behersk ferdighetene som kreves for å anvende K-Means-klynging effektivt. Lær hvordan algoritmen fungerer, bestem det optimale antallet klynger, og få praktisk erfaring ved å implementere K-Means på både syntetiske og virkelige datasett.

Utforsk det grunnleggende innen hierarkisk klynging og lær hvordan data kan grupperes i meningsfulle klynger ved hjelp av dendrogrammer. Bygg trygghet i å identifisere det optimale antallet klynger og implementere teknikken på både syntetiske og virkelige datasett.

Utforsk hvordan DBSCAN utmerker seg i å oppdage klynger med varierende former og håndtere støy i data. Lær mekanismene bak denne tetthetsbaserte algoritmen, hvordan punkter tilordnes klynger, og bruk den på både syntetiske og virkelige datasett med trygghet.

Få en grundig forståelse av gaussiske blandingsmodeller og hvordan de bruker sannsynlighet for å modellere komplekse klyngestrukturer. Prinsipper for gaussisk fordeling, utforskning av hvordan GMM fungerer, samt anvendelse på både dummydata og virkelige datasett.

Hvordan Hierarkisk Klynging Fungerer

Koblingstyper

Dendrogram