Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Implementierung mit Dummy-Datensatz | Hierarchisches Clustering
Clusteranalyse Mit Python

Implementierung mit Dummy-Datensatz

Swipe um das Menü anzuzeigen

Wie üblich werden die folgenden Bibliotheken verwendet:

  • sklearn zum Erzeugen von Dummy-Daten und zur Implementierung des hierarchischen Clusterings (AgglomerativeClustering);

  • scipy zum Erstellen und Bearbeiten des Dendrogramms;

  • matplotlib zur Visualisierung der Cluster und des Dendrogramms;

  • numpy für numerische Operationen.

Erzeugen von Dummy-Daten

Mit der Funktion make_blobs() aus scikit-learn können Datensätze mit unterschiedlicher Anzahl von Clustern und variierenden Trennschärfen generiert werden. Dies ermöglicht es, die Leistung des hierarchischen Clusterings in verschiedenen Szenarien zu beobachten.

Dummy-Daten

Der allgemeine Algorithmus ist wie folgt:

  1. Instanziierung des AgglomerativeClustering-Objekts unter Angabe der Linkage-Methode und weiterer Parameter;

  2. Anpassung des Modells an die Daten;

  3. Extraktion der Cluster-Labels, sofern eine bestimmte Anzahl von Clustern festgelegt wird;

  4. Visualisierung der Cluster (bei 2D- oder 3D-Daten) mittels Streudiagrammen;

  5. Verwendung von SciPys linkage zur Erstellung der Linkage-Matrix und anschließend dendrogram zur Visualisierung des Dendrogramms.

Es kann auch mit verschiedenen Linkage-Methoden (z. B. single, complete, average, Ward's) experimentiert werden, um deren Einfluss auf die Clustering-Ergebnisse und die Struktur des Dendrogramms zu beobachten.

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 4. Kapitel 3

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Abschnitt 4. Kapitel 3
some-alt