Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Qualitätsbewertung | Wie Wählt Man das Beste Modell Aus?
Clusteranalyse
course content

Kursinhalt

Clusteranalyse

Clusteranalyse

1. Was Ist Clustering?
2. Grundlegende Clustering-Algorithmen
3. Wie Wählt Man das Beste Modell Aus?

book
Qualitätsbewertung

Bei Aufgaben mit echten Daten kann es schwierig sein zu verstehen, welchen Algorithmus man verwenden soll und ob die Ergebnisse gut genug sind. Um dies zu bestimmen, werden mehrere Techniken verwendet:

  1. Relative Cluster-Validierung, die die Clusterstruktur bewertet, indem verschiedene Parameterwerte für denselben Algorithmus variiert werden (z.B.: Variation der Anzahl der Cluster k für K-means, Verknüpfung für agglomerative, eps und min_samples für DBSCAN usw.);

  2. Interne und externe Cluster-Validierung bedeutet, dass wir interne und externe Metriken verwenden, um die Qualität der Clusterbildung zu schätzen;

  3. Faustregel: Eine stabile Gruppe sollte erhalten bleiben, wenn die Clustermethode geändert wird. Zum Beispiel, wenn die mit der agglomerativen Methode und der K-means-Methode erzielten Ergebnisse um mehr als 70% übereinstimmen, wird die Annahme der Stabilität akzeptiert;

  4. Verwendung von Resampling-Methoden zur Bewertung der Stabilität der Clusteraufteilung:

    • ob die Aufteilung über verschiedene Teilstichproben des ursprünglichen Datensatzes stabil ist;
    • ob die Aufteilung stabil ist, nachdem einige Stichproben aus dem ursprünglichen Datensatz gelöscht wurden;
    • ob die Aufteilung stabil ist, nachdem die Reihenfolge der Elemente geändert wurde.
  5. Versuchen Sie, die Ergebnisse der Clusterbildung zu interpretieren im Hinblick auf den Anwendungsbereich: Ist es möglich, die Ergebnisse der Clusterbildung zu erklären und gibt es eine Logik in ihnen.

Hinweis

Im Kontext der Datenanalyse bezieht sich der Anwendungsbereich auf das spezifische Feld oder die Branche, zu der die Daten gehören oder für die sie verwendet werden. Beispiele für Anwendungsbereiche sind Gesundheitswesen, Finanzen, Marketing, Transport und viele andere.

Können wir die Ergebnisse der Clusterbildung als stabil betrachten, wenn verschiedene Algorithmen völlig unterschiedliche Cluster erzeugen?

Können wir die Ergebnisse der Clusterbildung als stabil betrachten, wenn verschiedene Algorithmen völlig unterschiedliche Cluster erzeugen?

Wählen Sie die richtige Antwort aus

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 3
We're sorry to hear that something went wrong. What happened?
some-alt