Lernen Implementierung auf einem Dummy-Datensatz

Sie werden nun ein praktisches Beispiel für die Anwendung des K-Means-Clustering durchgehen. Dazu verwenden Sie einen Dummy-Datensatz. Dummy-Datensätze sind künstlich generierte Datensätze, die häufig zu Demonstrations- und Lernzwecken eingesetzt werden. Sie ermöglichen es, die Eigenschaften der Daten gezielt zu steuern und klar zu beobachten, wie Algorithmen wie K-Means arbeiten.

Dummy-Datensatz

Für diese Demonstration erstellen wir einen Dummy-Datensatz mit der Funktion make_blobs(). Diese Funktion eignet sich hervorragend, um Cluster von Datenpunkten auf eine visuell übersichtliche und kontrollierbare Weise zu generieren. Wir erzeugen Daten mit folgenden Eigenschaften:

Anzahl der Stichproben: Wir erstellen einen Datensatz mit 300 Datenpunkten;
Anzahl der Zentren: Wir setzen die Anzahl der tatsächlichen Cluster auf 4. Das bedeutet, dass die Dummy-Daten vier klar unterscheidbare Gruppen enthalten;
Standardabweichung der Cluster: Wir steuern die Streuung der Datenpunkte innerhalb jedes Clusters und setzen sie auf 0.60 für relativ kompakte Cluster;
Random State: Wir verwenden einen festen random_state für Reproduzierbarkeit, sodass die Datenerzeugung bei jedem Ausführen des Codes konsistent bleibt.

X, y_true = make_blobs(n_samples=300,
                       centers=4,
                       cluster_std=0.60,
                       random_state=0)

K-Means-Implementierung

Mit diesen Dummy-Daten wenden wir anschließend den K-Means-Algorithmus an. Wir untersuchen, wie K-Means versucht, diese Daten anhand der zuvor behandelten Prinzipien in Cluster zu unterteilen.

K-Means kann in Python wie folgt initialisiert und trainiert werden:

kmeans = KMeans(n_clusters=k, random_state=42) 
kmeans.fit(X)

Um die optimale Anzahl an Clustern für diese Daten zu bestimmen, wenden wir die in den vorherigen Kapiteln besprochenen Methoden an:

WSS-Methode: Wir berechnen die Within-Sum-of-Squares für verschiedene Werte von K und analysieren das Elbow-Diagramm, um ein mögliches optimales K zu identifizieren;
Silhouette-Score-Methode: Wir berechnen den Silhouette-Score für verschiedene Werte von K und betrachten das Silhouette-Diagramm sowie die durchschnittlichen Silhouette-Scores, um das K zu finden, das die Clusterqualität maximiert.

Abschließend spielen Visualisierungen eine entscheidende Rolle in unserer Implementierung. Wir visualisieren:

Die Dummy-Daten selbst, um die zugrunde liegende Clusterstruktur zu erkennen;
Das WSS-Diagramm, um den Elbow-Punkt zu identifizieren;
Das Silhouette-Diagramm, um die Clusterqualität für verschiedene K-Werte zu beurteilen;
Die finalen K-Means-Cluster überlagert auf den Dummy-Daten, um die Clustering-Ergebnisse und das gewählte optimale K visuell zu überprüfen.

War alles klar?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 5

Fragen Sie AI

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Awesome!

Completion rate improved to 2.94

Swipe um das Menü anzuzeigen