Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Bestimmung der Optimalen Anzahl von Clustern mit dem Silhouette-Score | Abschnitt
Practice
Projects
Quizzes & Challenges
Quizze
Challenges
/
Grundlagen des Unüberwachten Lernens

bookBestimmung der Optimalen Anzahl von Clustern mit dem Silhouette-Score

Neben der WSS-Methode ist der Silhouette-Score eine weitere wertvolle Kennzahl zur Bestimmung der optimalen Anzahl von Clustern (K) im K-Means-Verfahren. Er bewertet, wie gut jeder Datenpunkt zu seinem Cluster im Vergleich zu anderen passt.

Für jeden Datenpunkt berücksichtigt der Silhouette-Score:

  • Kohäsion (a): durchschnittlicher Abstand zu Punkten im eigenen Cluster;

  • Separation (b): durchschnittlicher Abstand zu Punkten im nächstgelegenen anderen Cluster.

Der Silhouette-Score wird berechnet als: (b - a) / max(a, b) und liegt im Bereich von -1 bis +1.

Interpretation des Scores:

  • +1: Punkt ist gut zugeordnet;

  • ~0: Punkt befindet sich an der Clustergrenze;

  • -1: Punkt ist möglicherweise falsch zugeordnet.

Die Schritte zur Bestimmung des optimalen K mit dem Silhouette-Score sind wie folgt:

  • K-Means für einen Bereich von K-Werten ausführen (z. B. K=2 bis zu einer sinnvollen Obergrenze);

  • Für jedes K den durchschnittlichen Silhouette-Score berechnen;

  • Durchschnittlichen Silhouette-Score gegen K auftragen (Silhouette-Plot);

  • Das K mit dem höchsten durchschnittlichen Silhouette-Score auswählen.

Die Analyse des Silhouette-Plots, der die Scores für jeden Punkt zeigt, kann tiefere Einblicke in die Cluster-Konsistenz geben. Höhere Durchschnittswerte und konsistente Scores über die Punkte hinweg sind wünschenswert.

Zusammenfassend minimiert WSS die innerhalb der Cluster liegenden Distanzen, während der Silhouette-Score Kohäsion und Separation ausbalanciert. Die Kombination beider Methoden bietet einen robusteren Ansatz zur Bestimmung des optimalen K.

question mark

Was zeigt ein hoher durchschnittlicher Silhouette-Score (nahe +1) bei der Bewertung von Clustering-Ergebnissen an?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 10

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

bookBestimmung der Optimalen Anzahl von Clustern mit dem Silhouette-Score

Swipe um das Menü anzuzeigen

Neben der WSS-Methode ist der Silhouette-Score eine weitere wertvolle Kennzahl zur Bestimmung der optimalen Anzahl von Clustern (K) im K-Means-Verfahren. Er bewertet, wie gut jeder Datenpunkt zu seinem Cluster im Vergleich zu anderen passt.

Für jeden Datenpunkt berücksichtigt der Silhouette-Score:

  • Kohäsion (a): durchschnittlicher Abstand zu Punkten im eigenen Cluster;

  • Separation (b): durchschnittlicher Abstand zu Punkten im nächstgelegenen anderen Cluster.

Der Silhouette-Score wird berechnet als: (b - a) / max(a, b) und liegt im Bereich von -1 bis +1.

Interpretation des Scores:

  • +1: Punkt ist gut zugeordnet;

  • ~0: Punkt befindet sich an der Clustergrenze;

  • -1: Punkt ist möglicherweise falsch zugeordnet.

Die Schritte zur Bestimmung des optimalen K mit dem Silhouette-Score sind wie folgt:

  • K-Means für einen Bereich von K-Werten ausführen (z. B. K=2 bis zu einer sinnvollen Obergrenze);

  • Für jedes K den durchschnittlichen Silhouette-Score berechnen;

  • Durchschnittlichen Silhouette-Score gegen K auftragen (Silhouette-Plot);

  • Das K mit dem höchsten durchschnittlichen Silhouette-Score auswählen.

Die Analyse des Silhouette-Plots, der die Scores für jeden Punkt zeigt, kann tiefere Einblicke in die Cluster-Konsistenz geben. Höhere Durchschnittswerte und konsistente Scores über die Punkte hinweg sind wünschenswert.

Zusammenfassend minimiert WSS die innerhalb der Cluster liegenden Distanzen, während der Silhouette-Score Kohäsion und Separation ausbalanciert. Die Kombination beider Methoden bietet einen robusteren Ansatz zur Bestimmung des optimalen K.

question mark

Was zeigt ein hoher durchschnittlicher Silhouette-Score (nahe +1) bei der Bewertung von Clustering-Ergebnissen an?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 10
some-alt