Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Optimale Anzahl von Clustern | Hierarchisches Clustering
Clusteranalyse

bookOptimale Anzahl von Clustern

Im Gegensatz zu K-means liefert hierarchisches Clustering nicht direkt eine feste Anzahl von Clustern, sondern erzeugt eine Hierarchie. Es wird eine Methode benötigt, um zu entscheiden, an welcher Stelle das Dendrogramm geschnitten werden soll, um die gewünschte Clusteranzahl zu erhalten.

Methoden zur Bestimmung der Clusteranzahl

Zur Bestimmung der optimalen Clusteranzahl werden häufig verschiedene Methoden verwendet, darunter die Dendrogramm-Visualisierung, die Elbow-Methode und die Silhouettenmethode.

Dendrogramm-Visualisierung

Bei dieser Methode wird das Dendrogramm visuell auf die größten vertikalen Abstände untersucht, die nicht von horizontalen Linien durchkreuzt werden. Die Anzahl der Cluster kann aus der Anzahl der vertikalen Linien, die diese Abstände umfassen, abgeleitet werden. Diese Methode ist jedoch subjektiv und stark von der visuellen Interpretation abhängig.

Elbow-Methode (unter Verwendung der Within-Cluster Sum of Squares - WCSS)

Bei diesem Ansatz wird das hierarchische Clustering für verschiedene Clusteranzahlen durchgeführt und die WCSS für jede berechnet. Durch das Plotten der WCSS-Werte gegen die Anzahl der Cluster kann ein "Knickpunkt" im Diagramm identifiziert werden. Dieser Punkt zeigt ein gutes Gleichgewicht zwischen der Minimierung der WCSS und der Vermeidung einer zu hohen Clusteranzahl an, ähnlich wie bei der Elbow-Methode im K-means.

Silhouettenmethode

Bei dieser Methode werden Silhouettenwerte für verschiedene Clusteranzahlen berechnet, indem das Dendrogramm auf unterschiedlichen Höhen geschnitten wird. Die optimale Clusteranzahl entspricht dem höchsten durchschnittlichen Silhouettenwert.

Note
Hinweis

Die Berechnung von WCSS und Silhouettenwerten für hierarchisches Clustering kann rechenintensiv sein, insbesondere bei großen Datensätzen.

Bei der Wahl der Clusteranzahl sollte auch das Verständnis der Daten und des zu lösenden Problems berücksichtigt werden.

question mark

Welche der folgenden Methoden wird häufig verwendet, um die Anzahl der Cluster beim hierarchischen Clustering zu bestimmen?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 4. Kapitel 2

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Awesome!

Completion rate improved to 2.94

bookOptimale Anzahl von Clustern

Swipe um das Menü anzuzeigen

Im Gegensatz zu K-means liefert hierarchisches Clustering nicht direkt eine feste Anzahl von Clustern, sondern erzeugt eine Hierarchie. Es wird eine Methode benötigt, um zu entscheiden, an welcher Stelle das Dendrogramm geschnitten werden soll, um die gewünschte Clusteranzahl zu erhalten.

Methoden zur Bestimmung der Clusteranzahl

Zur Bestimmung der optimalen Clusteranzahl werden häufig verschiedene Methoden verwendet, darunter die Dendrogramm-Visualisierung, die Elbow-Methode und die Silhouettenmethode.

Dendrogramm-Visualisierung

Bei dieser Methode wird das Dendrogramm visuell auf die größten vertikalen Abstände untersucht, die nicht von horizontalen Linien durchkreuzt werden. Die Anzahl der Cluster kann aus der Anzahl der vertikalen Linien, die diese Abstände umfassen, abgeleitet werden. Diese Methode ist jedoch subjektiv und stark von der visuellen Interpretation abhängig.

Elbow-Methode (unter Verwendung der Within-Cluster Sum of Squares - WCSS)

Bei diesem Ansatz wird das hierarchische Clustering für verschiedene Clusteranzahlen durchgeführt und die WCSS für jede berechnet. Durch das Plotten der WCSS-Werte gegen die Anzahl der Cluster kann ein "Knickpunkt" im Diagramm identifiziert werden. Dieser Punkt zeigt ein gutes Gleichgewicht zwischen der Minimierung der WCSS und der Vermeidung einer zu hohen Clusteranzahl an, ähnlich wie bei der Elbow-Methode im K-means.

Silhouettenmethode

Bei dieser Methode werden Silhouettenwerte für verschiedene Clusteranzahlen berechnet, indem das Dendrogramm auf unterschiedlichen Höhen geschnitten wird. Die optimale Clusteranzahl entspricht dem höchsten durchschnittlichen Silhouettenwert.

Note
Hinweis

Die Berechnung von WCSS und Silhouettenwerten für hierarchisches Clustering kann rechenintensiv sein, insbesondere bei großen Datensätzen.

Bei der Wahl der Clusteranzahl sollte auch das Verständnis der Daten und des zu lösenden Problems berücksichtigt werden.

question mark

Welche der folgenden Methoden wird häufig verwendet, um die Anzahl der Cluster beim hierarchischen Clustering zu bestimmen?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 4. Kapitel 2
some-alt