Hoe Hiërarchische Clustering Werkt?
Veeg om het menu te tonen
Hiërarchisch clusteren is een methode van clusteranalyse die gericht is op het opbouwen van een hiërarchie van clusters. In tegenstelling tot K-means is het niet nodig om vooraf het aantal clusters te specificeren.
Het algoritme kan ofwel beginnen met elk punt in een eigen cluster en deze vervolgens samenvoegen (agglomeratief clusteren), of beginnen met alle punten in één cluster en deze vervolgens opsplitsen in kleinere clusters (divisief clusteren).
Aangezien agglomeratief clusteren de meest gebruikte aanpak is, richten we ons daarop.
Het meest voorkomende type hiërarchisch clusteren is de bottom-up aanpak. Het algoritme verloopt als volgt:
-
Initialisatie: elk datapunt wordt als een afzonderlijk cluster beschouwd;
-
Bereken proximiteitsmatrix: bereken de afstand tussen elk paar clusters;
-
Clusters samenvoegen: de twee dichtstbijzijnde clusters worden samengevoegd tot één cluster;
-
Proximiteitsmatrix bijwerken: herbereken de afstanden tussen het nieuwe cluster en alle overige clusters;
-
Herhalen: stappen 3 en 4 worden herhaald totdat alle datapunten zijn samengevoegd tot één cluster.
Koppelingssoorten
De nabijheid tussen twee clusters wordt bepaald door het type koppeling. Veelgebruikte koppelingsmethoden bij hiërarchische clustering zijn:
-
Single linkage: de afstand tussen de twee dichtstbijzijnde punten in de twee clusters;
-
Complete linkage: de afstand tussen de twee verst uit elkaar liggende punten in de twee clusters;
-
Average linkage: de gemiddelde afstand tussen alle paren van punten in de twee clusters;
-
Ward's methode: minimaliseert de toename van de totale variantie binnen de clusters bij het samenvoegen van twee clusters.
De keuze van de koppelingsmethode kan invloed hebben op de vorm en structuur van de resulterende clusters. Experimenteren en domeinkennis zijn vaak nuttig bij het selecteren van de beste methode voor jouw data.
Dendrogram
De resultaten van hiërarchische clustering worden vaak gevisualiseerd met behulp van een dendrogram.
Een dendrogram is een boomachtig diagram dat de hiërarchische relatie tussen de clusters weergeeft. De hoogte van de takken in het dendrogram geeft de afstand tussen de clusters aan.
Bedankt voor je feedback!
Vraag AI
Vraag AI
Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.