Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Bestimmung der Optimalen Clusteranzahl mit WSS | K-Means
Clusteranalyse Mit Python

Bestimmung der Optimalen Clusteranzahl mit WSS

Swipe um das Menü anzuzeigen

Beim K-Means-Clustering ist die Bestimmung der optimalen Anzahl von Clustern, K, eine entscheidende Entscheidung. Die Wahl des richtigen K ist wesentlich, um aussagekräftige Muster in den Daten zu erkennen. Zu wenige Cluster könnten die Daten zu stark vereinfachen, während zu viele zu spezifische und weniger nützliche Cluster erzeugen könnten. Daher sind Methoden zur Unterstützung der Wahl von K wichtig.

Eine beliebte Technik zur Bestimmung des optimalen K ist die Within-Sum-of-Squares (WSS)-Metrik. WSS misst die Summe der quadrierten Abstände zwischen jedem Datenpunkt und seinem zugewiesenen Schwerpunkt innerhalb eines Clusters. Im Wesentlichen zeigt WSS an, wie kompakt die Cluster sind. Niedrigere WSS-Werte deuten auf engere, kompaktere Cluster hin.

Unterschiedliche Anzahl von Clustern

Um WSS zur Bestimmung des optimalen K zu verwenden, befolgt man typischerweise diese Schritte:

K-means für einen Bereich von K-Werten ausführen
expand arrow
  • Testen von K-Werten von 1 bis zu einem sinnvollen Limit wie 10 oder 15;
WSS für jedes K berechnen
expand arrow
  • Berechnung der Within-Cluster Sum of Squares (WSS) für jeden Wert von K;
WSS als Funktion von K darstellen
expand arrow
  • Erstellen eines Diagramms mit K-Werten auf der x-Achse und WSS auf der y-Achse;
  • Dies wird als WSS-Plot oder Elbow-Plot bezeichnet;
Ellbogenpunkt finden
expand arrow
  • Suchen nach einem Punkt, an dem die WSS-Kurve abknickt und einen "Ellbogen" bildet;
  • Dieser Punkt deutet auf die optimale Anzahl von Clustern hin.
Note
Hinweis

Der Ellbogenpunkt im WSS-Plot ist entscheidend. Er stellt den Punkt dar, nach dem die Abnahme der WSS deutlich langsamer wird.

Dieses "Elbow" wird häufig als starker Indikator für das optimale K angesehen, aus folgenden Gründen:

  • Es weist auf abnehmenden Nutzen hin: Das Hinzufügen weiterer Cluster über das Elbow hinaus führt nicht zu einer wesentlichen Verbesserung des WSS, was bedeutet, dass die Cluster nicht wesentlich kompakter werden;

  • Es balanciert Granularität und Einfachheit: Das Elbow stellt oft einen guten Kompromiss dar, um die wesentliche Struktur in den Daten zu erfassen, ohne Overfitting oder unnötig feingranulare Cluster zu erzeugen.

Elbow-Methode

Es ist zu beachten, dass die Elbow-Methode eine Heuristik ist. Der Elbow-Punkt ist nicht immer eindeutig ausgeprägt, und weitere Faktoren können die endgültige Wahl von K beeinflussen. Visuelle Inspektion der resultierenden Cluster und Fachwissen sind wertvolle Ergänzungen zur Elbow-Methode.

question mark

Was stellt der Knickpunkt im WSS-Diagramm typischerweise dar, wenn die WSS-Methode zur Auswahl der Clusteranzahl beim K-Means-Verfahren verwendet wird?

Wählen Sie die richtige Antwort aus

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 3

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Abschnitt 3. Kapitel 3
some-alt