Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Optimale Anzahl von Clustern | Hierarchisches Clustering
Clusteranalyse

bookOptimale Anzahl von Clustern

Im Gegensatz zu K-means liefert hierarchisches Clustering nicht direkt eine feste Anzahl von Clustern. Stattdessen entsteht eine Hierarchie. Es wird eine Methode benötigt, um zu entscheiden, an welcher Stelle das Dendrogramm geschnitten werden soll, um die gewünschte Clusteranzahl zu erhalten.

Methoden zur Bestimmung der Clusteranzahl

Zur Bestimmung der optimalen Clusteranzahl werden häufig verschiedene Methoden verwendet, darunter die Visualisierung des Dendrogramms, die Elbow-Methode und die Silhouettenmethode.

Dendrogramm-Visualisierung

Bei dieser Methode wird das Dendrogramm visuell auf die größten vertikalen Abstände untersucht, die nicht von horizontalen Linien durchkreuzt werden. Die Anzahl der Cluster kann aus der Anzahl der vertikalen Linien, die diese Abstände umfassen, abgeleitet werden. Diese Methode ist jedoch subjektiv und stark von der visuellen Interpretation abhängig.

Elbow-Methode (unter Verwendung der within-cluster sum of squares - WCSS)

Bei diesem Ansatz wird das hierarchische Clustering für verschiedene Clusteranzahlen durchgeführt und die WCSS für jede berechnet. Durch das Plotten der WCSS-Werte gegen die Anzahl der Cluster kann ein "Knickpunkt" im Diagramm identifiziert werden. Dieser Punkt zeigt ein gutes Gleichgewicht zwischen der Minimierung der WCSS und der Vermeidung einer zu hohen Clusteranzahl, ähnlich wie bei der Elbow-Methode im K-means.

Silhouettenmethode

Diese Methode berechnet Silhouettenwerte für verschiedene Clusteranzahlen, indem das Dendrogramm auf unterschiedlichen Höhen geschnitten wird. Die optimale Clusteranzahl entspricht dem höchsten durchschnittlichen Silhouettenwert.

question mark

Welche der folgenden Methoden wird häufig verwendet, um die Anzahl der Cluster beim hierarchischen Clustering zu bestimmen?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 4. Kapitel 2

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Awesome!

Completion rate improved to 2.94

bookOptimale Anzahl von Clustern

Swipe um das Menü anzuzeigen

Im Gegensatz zu K-means liefert hierarchisches Clustering nicht direkt eine feste Anzahl von Clustern. Stattdessen entsteht eine Hierarchie. Es wird eine Methode benötigt, um zu entscheiden, an welcher Stelle das Dendrogramm geschnitten werden soll, um die gewünschte Clusteranzahl zu erhalten.

Methoden zur Bestimmung der Clusteranzahl

Zur Bestimmung der optimalen Clusteranzahl werden häufig verschiedene Methoden verwendet, darunter die Visualisierung des Dendrogramms, die Elbow-Methode und die Silhouettenmethode.

Dendrogramm-Visualisierung

Bei dieser Methode wird das Dendrogramm visuell auf die größten vertikalen Abstände untersucht, die nicht von horizontalen Linien durchkreuzt werden. Die Anzahl der Cluster kann aus der Anzahl der vertikalen Linien, die diese Abstände umfassen, abgeleitet werden. Diese Methode ist jedoch subjektiv und stark von der visuellen Interpretation abhängig.

Elbow-Methode (unter Verwendung der within-cluster sum of squares - WCSS)

Bei diesem Ansatz wird das hierarchische Clustering für verschiedene Clusteranzahlen durchgeführt und die WCSS für jede berechnet. Durch das Plotten der WCSS-Werte gegen die Anzahl der Cluster kann ein "Knickpunkt" im Diagramm identifiziert werden. Dieser Punkt zeigt ein gutes Gleichgewicht zwischen der Minimierung der WCSS und der Vermeidung einer zu hohen Clusteranzahl, ähnlich wie bei der Elbow-Methode im K-means.

Silhouettenmethode

Diese Methode berechnet Silhouettenwerte für verschiedene Clusteranzahlen, indem das Dendrogramm auf unterschiedlichen Höhen geschnitten wird. Die optimale Clusteranzahl entspricht dem höchsten durchschnittlichen Silhouettenwert.

question mark

Welche der folgenden Methoden wird häufig verwendet, um die Anzahl der Cluster beim hierarchischen Clustering zu bestimmen?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 4. Kapitel 2
some-alt