Summary  
This chapter explains the agglomerative hierarchical clustering algorithm, where each data point starts as its own cluster and clusters are successively merged based on chosen linkage-based distance measures, with the final cluster hierarchy visualized as a dendrogram.

General domain of usage  
Unsupervised machine learning

**Hiërarchisch clusteren** is een methode van clusteranalyse die gericht is op het opbouwen van een hiërarchie van clusters. **In tegenstelling tot K-means** is het niet nodig om vooraf het aantal clusters te specificeren.

Definitie

Het algoritme kan ofwel beginnen met **elk punt in een eigen cluster** en deze vervolgens samenvoegen (agglomeratief clusteren), of beginnen met **alle punten in één cluster** en deze vervolgens opsplitsen in kleinere clusters (divisief clusteren).

Aangezien **agglomeratief clusteren** de meest gebruikte aanpak is, richten we ons daarop.

Het meest voorkomende type hiërarchisch clusteren is de **bottom-up** aanpak. Het algoritme verloopt als volgt:

1.  **Initialisatie:** elk datapunt wordt als een afzonderlijk cluster beschouwd; 

2.  **Bereken proximiteitsmatrix:** bereken de afstand tussen elk paar clusters; 

3.  **Clusters samenvoegen:** de twee dichtstbijzijnde clusters worden samengevoegd tot één cluster; 

4.  **Proximiteitsmatrix bijwerken:** herbereken de afstanden tussen het nieuwe cluster en alle overige clusters; 

5.  **Herhalen:** stappen 3 en 4 worden herhaald totdat alle datapunten zijn samengevoegd tot één cluster.


## Koppelingssoorten

De nabijheid tussen twee clusters wordt bepaald door het **type koppeling**. Veelgebruikte koppelingsmethoden bij hiërarchische clustering zijn:

*   **Single linkage:** de afstand tussen de twee dichtstbijzijnde punten in de twee clusters;

*   **Complete linkage:** de afstand tussen de twee verst uit elkaar liggende punten in de twee clusters;

*   **Average linkage:** de gemiddelde afstand tussen alle paren van punten in de twee clusters;

*   **Ward's methode:** minimaliseert de toename van de totale variantie binnen de clusters bij het samenvoegen van twee clusters.

De keuze van de koppelingsmethode kan invloed hebben op de **vorm** en **structuur** van de resulterende clusters. Experimenteren en domeinkennis zijn vaak nuttig bij het selecteren van de beste methode voor jouw data.

## Dendrogram

De resultaten van hiërarchische clustering worden vaak gevisualiseerd met behulp van een **dendrogram**.

Een **dendrogram** is een boomachtig diagram dat de hiërarchische relatie tussen de clusters weergeeft. De hoogte van de takken in het dendrogram geeft de **afstand tussen de clusters** aan.

Wat is het belangrijkste kenmerk van de bottom-up (agglomeratieve) hiërarchische clusteringmethode?

Verkrijg een grondig begrip van clusteranalyse, een belangrijke unsupervised learning-techniek voor het ontdekken van patronen in niet-gelabelde data. Verken de basisprincipes van K-Means, hiërarchische clustering, DBSCAN en GMM's, en doe praktische ervaring op met echte datasets om vertrouwen te krijgen in het toepassen van clustering op praktijkproblemen.

Verdiep u in de basisprincipes van clustering en ontdek het verschil met classificatie.
Verken essentiële algoritmen, tools en bibliotheken die deze unsupervised learning-techniek aandrijven om verborgen patronen in data te onthullen.

Verkrijg een grondig begrip van essentiële preprocessietechnieken die effectieve clustering waarborgen.
Behandeling van ontbrekende waarden.
Codering van categorische kenmerken.
Normalisatie van gegevens.
Selectie van geschikte afstandsmaatstaven en koppelingen ter verbetering van de clusteringnauwkeurigheid.

Beheers de vaardigheden die nodig zijn om K-Means-clustering effectief toe te passen. Leer hoe het algoritme werkt, bepaal het optimale aantal clusters en doe praktische ervaring op met het implementeren van K-Means op zowel synthetische als realistische datasets.

Ontdek de basisprincipes van hiërarchische clustering en leer hoe u gegevens groepeert in betekenisvolle clusters met behulp van dendrogrammen. Vergroot het vertrouwen in het identificeren van het optimale aantal clusters en het toepassen van de techniek op zowel synthetische als realistische datasets.

Ontdek hoe DBSCAN uitblinkt in het detecteren van clusters met verschillende vormen en het omgaan met ruis in data. Begrijp de werking van dit dichtheidsgebaseerde algoritme, de toewijzing van punten aan clusters en de toepassing op zowel synthetische als echte datasets met vertrouwen.

Verkrijg een grondig begrip van Gaussiaanse mengmodellen en hoe deze waarschijnlijkheid gebruiken om complexe clusterstructuren te modelleren. Inzicht in de principes van de Gauss-verdeling, verkenning van de werking van GMM's en het opbouwen van vertrouwen door toepassing op zowel fictieve als realistische gegevens.

Hoe Hiërarchische Clustering Werkt?

Koppelingssoorten

Dendrogram