Optimale Anzahl von Clustern
Im Gegensatz zu K-means liefert hierarchisches Clustering nicht direkt eine feste Anzahl von Clustern. Stattdessen entsteht eine Hierarchie. Es wird eine Methode benötigt, um zu entscheiden, an welcher Stelle das Dendrogramm geschnitten werden soll, um die gewünschte Clusteranzahl zu erhalten.
Methoden zur Bestimmung der Clusteranzahl
Zur Bestimmung der optimalen Clusteranzahl werden häufig verschiedene Methoden verwendet, darunter die Visualisierung des Dendrogramms, die Elbow-Methode und die Silhouettenmethode.
Dendrogramm-Visualisierung
Bei dieser Methode wird das Dendrogramm visuell auf die größten vertikalen Abstände untersucht, die nicht von horizontalen Linien durchkreuzt werden. Die Anzahl der Cluster kann aus der Anzahl der vertikalen Linien, die diese Abstände umfassen, abgeleitet werden. Diese Methode ist jedoch subjektiv und stark von der visuellen Interpretation abhängig.
Elbow-Methode (unter Verwendung der within-cluster sum of squares - WCSS)
Bei diesem Ansatz wird das hierarchische Clustering für verschiedene Clusteranzahlen durchgeführt und die WCSS für jede berechnet. Durch das Plotten der WCSS-Werte gegen die Anzahl der Cluster kann ein "Knickpunkt" im Diagramm identifiziert werden. Dieser Punkt zeigt ein gutes Gleichgewicht zwischen der Minimierung der WCSS und der Vermeidung einer zu hohen Clusteranzahl, ähnlich wie bei der Elbow-Methode im K-means.
Silhouettenmethode
Diese Methode berechnet Silhouettenwerte für verschiedene Clusteranzahlen, indem das Dendrogramm auf unterschiedlichen Höhen geschnitten wird. Die optimale Clusteranzahl entspricht dem höchsten durchschnittlichen Silhouettenwert.
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen
Awesome!
Completion rate improved to 2.94
Optimale Anzahl von Clustern
Swipe um das Menü anzuzeigen
Im Gegensatz zu K-means liefert hierarchisches Clustering nicht direkt eine feste Anzahl von Clustern. Stattdessen entsteht eine Hierarchie. Es wird eine Methode benötigt, um zu entscheiden, an welcher Stelle das Dendrogramm geschnitten werden soll, um die gewünschte Clusteranzahl zu erhalten.
Methoden zur Bestimmung der Clusteranzahl
Zur Bestimmung der optimalen Clusteranzahl werden häufig verschiedene Methoden verwendet, darunter die Visualisierung des Dendrogramms, die Elbow-Methode und die Silhouettenmethode.
Dendrogramm-Visualisierung
Bei dieser Methode wird das Dendrogramm visuell auf die größten vertikalen Abstände untersucht, die nicht von horizontalen Linien durchkreuzt werden. Die Anzahl der Cluster kann aus der Anzahl der vertikalen Linien, die diese Abstände umfassen, abgeleitet werden. Diese Methode ist jedoch subjektiv und stark von der visuellen Interpretation abhängig.
Elbow-Methode (unter Verwendung der within-cluster sum of squares - WCSS)
Bei diesem Ansatz wird das hierarchische Clustering für verschiedene Clusteranzahlen durchgeführt und die WCSS für jede berechnet. Durch das Plotten der WCSS-Werte gegen die Anzahl der Cluster kann ein "Knickpunkt" im Diagramm identifiziert werden. Dieser Punkt zeigt ein gutes Gleichgewicht zwischen der Minimierung der WCSS und der Vermeidung einer zu hohen Clusteranzahl, ähnlich wie bei der Elbow-Methode im K-means.
Silhouettenmethode
Diese Methode berechnet Silhouettenwerte für verschiedene Clusteranzahlen, indem das Dendrogramm auf unterschiedlichen Höhen geschnitten wird. Die optimale Clusteranzahl entspricht dem höchsten durchschnittlichen Silhouettenwert.
Danke für Ihr Feedback!