Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Leer Optimale Aantal Clusters | Sectie
Practice
Projects
Quizzes & Challenges
Quizzen
Challenges
/
Essentiële Unsupervised Learning

bookOptimale Aantal Clusters

In tegenstelling tot K-means levert hiërarchische clustering niet direct een vast aantal clusters op. In plaats daarvan ontstaat er een hiërarchie. Er is een methode nodig om te bepalen waar de dendrogram moet worden doorgesneden om het gewenste aantal clusters te verkrijgen.

Methoden voor het bepalen van het aantal clusters

Voor het bepalen van het optimale aantal clusters worden verschillende methoden gebruikt, waaronder dendrogramvisualisatie, de elbow-methode en de silhouetmethode.

Dendrogramvisualisatie

Deze methode houdt in dat het dendrogram visueel wordt geïnspecteerd op de grootste verticale afstanden die niet worden doorkruist door horizontale lijnen. Het aantal clusters kan worden afgeleid uit het aantal verticale lijnen dat deze afstanden omvat. Deze methode is echter subjectief en sterk afhankelijk van visuele interpretatie.

Elbow-methode (gebruikmakend van within-cluster sum of squares - WCSS)

Bij deze aanpak wordt hiërarchische clustering uitgevoerd voor een reeks aantallen clusters en wordt de WCSS voor elk berekend. Door de WCSS-waarden uit te zetten tegen het aantal clusters, kan een "knikpunt" in de grafiek worden geïdentificeerd. Dit punt geeft een goed evenwicht aan tussen het minimaliseren van WCSS en het vermijden van een overmatig aantal clusters, vergelijkbaar met de elbow-methode bij K-means.

Silhouetmethode

Deze methode houdt in dat silhouetscores worden berekend voor verschillende aantallen clusters door het dendrogram op verschillende hoogtes door te snijden. Het optimale aantal clusters is het aantal dat overeenkomt met de hoogste gemiddelde silhouetscore.

Note
Opmerking

Het berekenen van WCSS en silhouetscores voor hiërarchische clustering kan computatie-intensief zijn, vooral bij grote datasets.

Bij het kiezen van het aantal clusters dient ook de kennis van de data en het probleem dat opgelost moet worden als leidraad te fungeren.

question mark

Welke van de volgende methoden wordt vaak gebruikt om het aantal clusters te bepalen bij hiërarchische clustering?

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 1. Hoofdstuk 15

Vraag AI

expand

Vraag AI

ChatGPT

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

bookOptimale Aantal Clusters

Veeg om het menu te tonen

In tegenstelling tot K-means levert hiërarchische clustering niet direct een vast aantal clusters op. In plaats daarvan ontstaat er een hiërarchie. Er is een methode nodig om te bepalen waar de dendrogram moet worden doorgesneden om het gewenste aantal clusters te verkrijgen.

Methoden voor het bepalen van het aantal clusters

Voor het bepalen van het optimale aantal clusters worden verschillende methoden gebruikt, waaronder dendrogramvisualisatie, de elbow-methode en de silhouetmethode.

Dendrogramvisualisatie

Deze methode houdt in dat het dendrogram visueel wordt geïnspecteerd op de grootste verticale afstanden die niet worden doorkruist door horizontale lijnen. Het aantal clusters kan worden afgeleid uit het aantal verticale lijnen dat deze afstanden omvat. Deze methode is echter subjectief en sterk afhankelijk van visuele interpretatie.

Elbow-methode (gebruikmakend van within-cluster sum of squares - WCSS)

Bij deze aanpak wordt hiërarchische clustering uitgevoerd voor een reeks aantallen clusters en wordt de WCSS voor elk berekend. Door de WCSS-waarden uit te zetten tegen het aantal clusters, kan een "knikpunt" in de grafiek worden geïdentificeerd. Dit punt geeft een goed evenwicht aan tussen het minimaliseren van WCSS en het vermijden van een overmatig aantal clusters, vergelijkbaar met de elbow-methode bij K-means.

Silhouetmethode

Deze methode houdt in dat silhouetscores worden berekend voor verschillende aantallen clusters door het dendrogram op verschillende hoogtes door te snijden. Het optimale aantal clusters is het aantal dat overeenkomt met de hoogste gemiddelde silhouetscore.

Note
Opmerking

Het berekenen van WCSS en silhouetscores voor hiërarchische clustering kan computatie-intensief zijn, vooral bij grote datasets.

Bij het kiezen van het aantal clusters dient ook de kennis van de data en het probleem dat opgelost moet worden als leidraad te fungeren.

question mark

Welke van de volgende methoden wordt vaak gebruikt om het aantal clusters te bepalen bij hiërarchische clustering?

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 1. Hoofdstuk 15
some-alt