Kursinhalt
Clusteranalyse
Clusteranalyse
Qualitätsbewertung
Bei Aufgaben mit echten Daten kann es schwierig sein zu verstehen, welchen Algorithmus man verwenden soll und ob die Ergebnisse gut genug sind. Um dies zu bestimmen, werden mehrere Techniken verwendet:
-
Relative Cluster-Validierung, die die Clusterstruktur bewertet, indem verschiedene Parameterwerte für denselben Algorithmus variiert werden (z.B.: Variation der Anzahl der Cluster k für K-means, Verknüpfung für agglomerative, eps und min_samples für DBSCAN usw.);
-
Interne und externe Cluster-Validierung bedeutet, dass wir interne und externe Metriken verwenden, um die Qualität der Clusterbildung zu schätzen;
-
Faustregel: Eine stabile Gruppe sollte erhalten bleiben, wenn die Clustermethode geändert wird. Zum Beispiel, wenn die mit der agglomerativen Methode und der K-means-Methode erzielten Ergebnisse um mehr als 70% übereinstimmen, wird die Annahme der Stabilität akzeptiert;
-
Verwendung von Resampling-Methoden zur Bewertung der Stabilität der Clusteraufteilung:
- ob die Aufteilung über verschiedene Teilstichproben des ursprünglichen Datensatzes stabil ist;
- ob die Aufteilung stabil ist, nachdem einige Stichproben aus dem ursprünglichen Datensatz gelöscht wurden;
- ob die Aufteilung stabil ist, nachdem die Reihenfolge der Elemente geändert wurde.
-
Versuchen Sie, die Ergebnisse der Clusterbildung zu interpretieren im Hinblick auf den Anwendungsbereich: Ist es möglich, die Ergebnisse der Clusterbildung zu erklären und gibt es eine Logik in ihnen.
Hinweis
Im Kontext der Datenanalyse bezieht sich der Anwendungsbereich auf das spezifische Feld oder die Branche, zu der die Daten gehören oder für die sie verwendet werden. Beispiele für Anwendungsbereiche sind Gesundheitswesen, Finanzen, Marketing, Transport und viele andere.
Danke für Ihr Feedback!