Bestimmung der Optimalen Clusteranzahl Mittels Silhouette-Score
Neben der WSS-Methode ist der Silhouette-Score eine weitere wertvolle Kennzahl zur Bestimmung der optimalen Anzahl von Clustern (K) im K-Means-Verfahren. Er bewertet, wie gut jeder Datenpunkt zu seinem Cluster im Vergleich zu anderen passt.
Für jeden Datenpunkt berücksichtigt der Silhouette-Score:
-
Kohäsion (a): durchschnittlicher Abstand zu Punkten im eigenen Cluster;
-
Separation (b): durchschnittlicher Abstand zu Punkten im nächstgelegenen anderen Cluster.
Der Silhouette-Score wird berechnet als: (b - a) / max(a, b) und liegt im Bereich von -1 bis +1.
Interpretation des Scores:
-
+1: Punkt ist gut zugeordnet;
-
~0: Punkt liegt an der Clustergrenze;
-
-1: Punkt ist möglicherweise falsch zugeordnet.
Die Schritte zur Bestimmung des optimalen K mit dem Silhouette-Score sind wie folgt:
-
K-Means für einen Bereich von K-Werten ausführen (z. B. K=2 bis zu einer sinnvollen Obergrenze);
-
Für jedes K den durchschnittlichen Silhouette-Score berechnen;
-
Durchschnittlichen Silhouette-Score gegen K auftragen (Silhouette-Plot);
-
Das K mit dem höchsten durchschnittlichen Silhouette-Score auswählen.
Die Analyse des Silhouette-Plots, der die Scores für jeden Punkt zeigt, kann zusätzliche Einblicke in die Konsistenz der Cluster geben. Höhere Durchschnittswerte und konsistente Scores über alle Punkte sind wünschenswert.
Zusammenfassend gilt: Während WSS die innerhalb der Cluster liegenden Distanzen minimiert, balanciert der Silhouette-Score Kohäsion und Separation. Die Verwendung beider Methoden bietet einen robusteren Ansatz zur Bestimmung des optimalen K.
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen
Awesome!
Completion rate improved to 2.94
Bestimmung der Optimalen Clusteranzahl Mittels Silhouette-Score
Swipe um das Menü anzuzeigen
Neben der WSS-Methode ist der Silhouette-Score eine weitere wertvolle Kennzahl zur Bestimmung der optimalen Anzahl von Clustern (K) im K-Means-Verfahren. Er bewertet, wie gut jeder Datenpunkt zu seinem Cluster im Vergleich zu anderen passt.
Für jeden Datenpunkt berücksichtigt der Silhouette-Score:
-
Kohäsion (a): durchschnittlicher Abstand zu Punkten im eigenen Cluster;
-
Separation (b): durchschnittlicher Abstand zu Punkten im nächstgelegenen anderen Cluster.
Der Silhouette-Score wird berechnet als: (b - a) / max(a, b) und liegt im Bereich von -1 bis +1.
Interpretation des Scores:
-
+1: Punkt ist gut zugeordnet;
-
~0: Punkt liegt an der Clustergrenze;
-
-1: Punkt ist möglicherweise falsch zugeordnet.
Die Schritte zur Bestimmung des optimalen K mit dem Silhouette-Score sind wie folgt:
-
K-Means für einen Bereich von K-Werten ausführen (z. B. K=2 bis zu einer sinnvollen Obergrenze);
-
Für jedes K den durchschnittlichen Silhouette-Score berechnen;
-
Durchschnittlichen Silhouette-Score gegen K auftragen (Silhouette-Plot);
-
Das K mit dem höchsten durchschnittlichen Silhouette-Score auswählen.
Die Analyse des Silhouette-Plots, der die Scores für jeden Punkt zeigt, kann zusätzliche Einblicke in die Konsistenz der Cluster geben. Höhere Durchschnittswerte und konsistente Scores über alle Punkte sind wünschenswert.
Zusammenfassend gilt: Während WSS die innerhalb der Cluster liegenden Distanzen minimiert, balanciert der Silhouette-Score Kohäsion und Separation. Die Verwendung beider Methoden bietet einen robusteren Ansatz zur Bestimmung des optimalen K.
Danke für Ihr Feedback!