Summary  
This chapter covers how to generate synthetic 2D data and apply hierarchical clustering by instantiating AgglomerativeClustering with various linkage methods, fitting it, and printing cluster labels. It also demonstrates computing a linkage matrix via SciPy and visualizing the resulting dendrogram.  

General domain of usage  
Unsupervised machine learning

Wie üblich werden die folgenden Bibliotheken verwendet:
- `sklearn` zum Erzeugen von Dummy-Daten und zur Implementierung des hierarchischen Clusterings (`AgglomerativeClustering`);

- `scipy` zum Erstellen und Bearbeiten des Dendrogramms;

- `matplotlib` zur Visualisierung der Cluster und des Dendrogramms;

- `numpy` für numerische Operationen.

## Erzeugen von Dummy-Daten

Mit der Funktion `make_blobs()` aus `scikit-learn` können Datensätze mit **unterschiedlicher Anzahl von Clustern** und **variierenden Trennschärfen** generiert werden. Dies ermöglicht es, die Leistung des hierarchischen Clusterings in verschiedenen Szenarien zu beobachten.

Der allgemeine Algorithmus ist wie folgt:

1.  Instanziierung des `AgglomerativeClustering`-Objekts unter Angabe der **Linkage-Methode** und weiterer Parameter;     

2.  Anpassung des Modells an die Daten; 

3.  Extraktion der **Cluster-Labels**, sofern eine bestimmte Anzahl von Clustern festgelegt wird;      

4.  Visualisierung der Cluster (bei 2D- oder 3D-Daten) mittels **Streudiagrammen**;     

5.  Verwendung von SciPys `linkage` zur Erstellung der **Linkage-Matrix** und anschließend **dendrogram** zur Visualisierung des Dendrogramms. 


Es kann auch mit **verschiedenen Linkage-Methoden** (z. B. single, complete, average, Ward's) experimentiert werden, um deren Einfluss auf die Clustering-Ergebnisse und die Struktur des Dendrogramms zu beobachten. 

Code für dieses Kapitel herunterladen

Erwerben Sie ein fundiertes Verständnis der Clusteranalyse, einer zentralen Methode des unüberwachten Lernens zur Erkennung von Mustern in nicht gekennzeichneten Daten. Lernen Sie die Grundlagen von K-Means, hierarchischem Clustering, DBSCAN und GMMs kennen und sammeln Sie praktische Erfahrungen mit realen Datensätzen, um Sicherheit bei der Anwendung von Clustering auf reale Problemstellungen zu gewinnen.

Tauchen Sie in die Grundlagen der Clusteranalyse ein und erfahren Sie, wie sie sich von der Klassifikation unterscheidet. Erkunden Sie wesentliche Algorithmen, Werkzeuge und Bibliotheken, die diese Methode des unbeaufsichtigten Lernens unterstützen, um verborgene Muster in Daten zu erkennen.

Erwerben Sie ein fundiertes Verständnis der wichtigsten Vorverarbeitungstechniken, die eine effektive Clusterbildung gewährleisten. Erfahren Sie, wie fehlende Werte behandelt, kategoriale Merkmale codiert, Daten normalisiert und geeignete Distanzmaße sowie Verknüpfungen ausgewählt werden, um die Genauigkeit der Clusterbildung zu erhöhen.

Beherrschen der Fähigkeiten zur effektiven Anwendung des K-Means-Clusterings. Verständnis der Funktionsweise des Algorithmus. Bestimmung der optimalen Clusteranzahl. Praktische Erfahrung durch Implementierung von K-Means auf synthetischen und realen Datensätzen.

Erkunden Sie die Grundlagen des hierarchischen Clusterings und erfahren Sie, wie Daten mithilfe von Dendrogrammen in sinnvolle Cluster gruppiert werden. Sicherheit beim Erkennen der optimalen Clusteranzahl und Anwendung der Methode auf synthetische sowie reale Datensätze.

Erfahren Sie, wie DBSCAN bei der Erkennung von Clustern unterschiedlicher Formen und der Handhabung von Ausreißern in Daten überzeugt. Verstehen Sie die Mechanismen dieses dichtebasierten Algorithmus, die Zuordnung von Punkten zu Clustern und die Anwendung auf synthetische sowie reale Datensätze.

Fundierte Kenntnisse über Gaußsche Mischmodelle und deren Verwendung von Wahrscheinlichkeiten zur Modellierung komplexer Clusterformen. Prinzipien der Gaußschen Verteilung. Funktionsweise von GMMs. Anwendung auf Dummy- und Realweltdaten zur Festigung des Verständnisses.

Implementierung mit Dummy-Datensatz

Erzeugen von Dummy-Daten

Implementierung mit Dummy-Datensatz

Erzeugen von Dummy-Daten