Summary  
This chapter covers the implementation of the K-means clustering algorithm: randomly initializing K centroids, iteratively assigning each data point to its nearest centroid, recalculating centroids as cluster means, and repeating until convergence.

General domain of usage  
Unsupervised machine learning (data clustering)

### Initialisierung

Der Algorithmus beginnt mit der **zufälligen** Auswahl von **K** anfänglichen Clusterzentren, auch als **Zentroiden** bezeichnet. Diese Zentroiden dienen als Ausgangspunkte für jedes Cluster. Ein gängiger Ansatz ist es, K Datenpunkte aus dem Datensatz zufällig als **anfängliche Zentroiden** auszuwählen.

### Zuweisungsschritt

In diesem Schritt wird jedem Datenpunkt das **nächstgelegene Zentrum** zugewiesen. Der Abstand wird typischerweise mit der **euklidischen Distanz** gemessen, es können jedoch auch andere Distanzmaße verwendet werden. Jeder Datenpunkt wird dem Cluster zugeordnet, das durch das nächstgelegene Zentrum repräsentiert wird.

### Aktualisierungsschritt

Sobald alle Datenpunkte den Clustern zugewiesen wurden, werden die Zentroiden **neu berechnet**. Für jedes Cluster wird das neue Zentrum als **Mittelwert aller zu diesem Cluster gehörenden Datenpunkte** berechnet. Im Wesentlichen wird das Zentrum in die Mitte seines Clusters verschoben.

### Iteration

Die Schritte 2 und 3 werden iterativ wiederholt. In jeder Iteration werden die Datenpunkte **basierend auf den aktualisierten Zentroiden neu zugewiesen** und anschließend **die Zentroiden anhand der neuen Clusterzuweisungen neu berechnet**. Dieser iterative Prozess wird fortgesetzt, bis ein Abbruchkriterium erfüllt ist.

### Konvergenz

Der Algorithmus stoppt, wenn eine der folgenden Bedingungen erfüllt ist:

- **Zentroiden ändern sich nicht signifikant:** Die Positionen der Zentroiden stabilisieren sich, sodass sich ihre Lage in den folgenden Iterationen nur noch minimal verändert;

- **Datenpunktzuweisungen ändern sich nicht:** Die Datenpunkte verbleiben in denselben Clustern, was darauf hinweist, dass die Clusterstruktur stabil geworden ist;

- **Maximale Anzahl an Iterationen erreicht:** Eine vordefinierte maximale Anzahl an Iterationen wird erreicht. Dies verhindert, dass der Algorithmus unendlich lange läuft.

Nach der Konvergenz hat der K-Means-Algorithmus die Daten in **K Cluster** unterteilt, wobei jedes Cluster durch sein Zentrum repräsentiert wird. Die resultierenden Cluster sollen **intern kohäsiv** und **extern getrennt** sein, basierend auf dem gewählten Distanzmaß und dem iterativen Verfeinerungsprozess.

Was ist die Hauptaktion, die im Aktualisierungsschritt des K-Means-Algorithmus durchgeführt wird?

Entdecken Sie die Kraft verborgener Muster mit unüberwachtem Lernen. Beherrschen Sie die einflussreichsten Clustering-Algorithmen, darunter K-Means, hierarchisches Clustering, DBSCAN und Gaußsche Mischmodelle. Lernen Sie, die Clusterqualität mit WSS- und Silhouette-Werten zu bewerten, verschiedene Distanzmaße zu handhaben und robuste Lösungen auf realen Datensätzen zu implementieren. Entwickeln Sie Fähigkeiten zur Kundensegmentierung und zur Entdeckung von Strukturen in nicht gelabelten Daten mit Scikit-learn.

Wie Der K-Means-Algorithmus Funktioniert

Initialisierung

Zuweisungsschritt

Aktualisierungsschritt

Iteration

Konvergenz