Summary  
This chapter demonstrates how to generate synthetic data and implement k-means clustering in code, including fitting the model, computing WSS (inertia) and Silhouette scores to choose the optimal number of clusters, and visualizing the resulting clusters and centroids.  

General domain of usage  
Unsupervised machine learning (cluster analysis)

Sie werden nun ein praktisches Beispiel zur Anwendung des **K-means-Clustering** durchgehen. Dafür verwenden Sie einen **Dummy-Datensatz**. Dummy-Datensätze sind künstlich generierte Datensätze, die häufig zu Demonstrations- und Lernzwecken eingesetzt werden. Sie ermöglichen es, **die Eigenschaften der Daten gezielt zu steuern** und klar zu beobachten, wie Algorithmen wie K-means arbeiten.

## Dummy-Datensatz

Für diese Demonstration erstellen wir einen Dummy-Datensatz mit der Funktion `make_blobs()`. Diese Funktion eignet sich hervorragend, um Cluster von Datenpunkten **visuell klar** und **kontrollierbar** zu erzeugen. Wir generieren Daten mit folgenden Eigenschaften:

-  **Anzahl der Stichproben**: Wir erstellen einen Datensatz mit `300` Datenpunkten;

- **Anzahl der Zentren**: Wir setzen die Anzahl der tatsächlichen Cluster auf `4`. Das bedeutet, die Dummy-Daten sind so gestaltet, dass sie vier unterschiedliche Gruppen enthalten;

- **Standardabweichung der Cluster**: Wir steuern die Streuung der Datenpunkte innerhalb jedes Clusters und setzen sie auf `0.60` für relativ kompakte Cluster;

- **Random State**: Wir verwenden einen festen `random_state` für Reproduzierbarkeit, sodass die Datengenerierung bei jedem Ausführen des Codes konsistent bleibt.

```python
X, y_true = make_blobs(n_samples=300,
                       centers=4,
                       cluster_std=0.60,
                       random_state=0)
```

## K-Means-Implementierung

Mit diesen Dummy-Daten wenden wir anschließend den **K-means-Algorithmus** an. Wir untersuchen, wie K-means versucht, **diese Daten in Cluster zu unterteilen**, basierend auf den Prinzipien, die Sie in den vorherigen Kapiteln kennengelernt haben.

K-means kann in Python wie folgt initialisiert und trainiert werden:

```python
kmeans = KMeans(n_clusters=k, random_state=42) 
kmeans.fit(X)
``` 

Um die **optimale Anzahl an Clustern** für diese Daten zu bestimmen, verwenden wir die in den vorherigen Kapiteln besprochenen Methoden:

- **WSS-Methode**: Wir berechnen die Within-Sum-of-Squares für verschiedene Werte von K und analysieren das Elbow-Plot, um ein potenziell optimales K zu identifizieren;

- **Silhouette-Score-Methode**: Wir berechnen den Silhouette-Score für verschiedene Werte von K und betrachten das Silhouette-Plot sowie die durchschnittlichen Silhouette-Scores, um das K zu finden, das die Clusterqualität maximiert.

Abschließend spielen **Visualisierungen** eine entscheidende Rolle in unserer Implementierung. Wir visualisieren:

- Die Dummy-Daten selbst, um die **zugrundeliegende Clusterstruktur** zu erkennen;

- Das **WSS-Plot**, um den Elbow-Punkt zu identifizieren;

- Das **Silhouette-Plot**, um die Clusterqualität für verschiedene K-Werte zu beurteilen;

- Die **finalen K-means-Cluster** überlagert auf den Dummy-Daten, um die Clustering-Ergebnisse und das gewählte optimale K visuell zu überprüfen.

Welcher Parameter in der Funktion make_blobs() steuert die Streuung der Datenpunkte innerhalb jedes Clusters

Entdecken Sie die Kraft verborgener Muster mit unüberwachtem Lernen. Beherrschen Sie die einflussreichsten Clustering-Algorithmen, darunter K-Means, hierarchisches Clustering, DBSCAN und Gaußsche Mischmodelle. Lernen Sie, die Clusterqualität mit WSS- und Silhouette-Werten zu bewerten, verschiedene Distanzmaße zu handhaben und robuste Lösungen auf realen Datensätzen zu implementieren. Entwickeln Sie Fähigkeiten zur Kundensegmentierung und zur Entdeckung von Strukturen in nicht gelabelten Daten mit Scikit-learn.

Implementierung auf Dummy-Datensatz

Dummy-Datensatz

K-Means-Implementierung