Implementierung auf einem Dummy-Datensatz
Swipe um das Menü anzuzeigen
Sie werden nun ein praktisches Beispiel für die Anwendung des K-Means-Clustering durchgehen. Dazu verwenden Sie einen Dummy-Datensatz. Dummy-Datensätze sind künstlich generierte Datensätze, die häufig zu Demonstrations- und Lernzwecken eingesetzt werden. Sie ermöglichen es, die Eigenschaften der Daten gezielt zu steuern und klar zu beobachten, wie Algorithmen wie K-Means arbeiten.
Dummy-Datensatz
Für diese Demonstration erstellen wir einen Dummy-Datensatz mit der Funktion make_blobs(). Diese Funktion eignet sich hervorragend, um Cluster von Datenpunkten auf eine visuell übersichtliche und kontrollierbare Weise zu generieren. Wir erzeugen Daten mit folgenden Eigenschaften:
-
Anzahl der Stichproben: Wir erstellen einen Datensatz mit
300Datenpunkten; -
Anzahl der Zentren: Wir setzen die Anzahl der tatsächlichen Cluster auf
4. Das bedeutet, dass die Dummy-Daten vier klar unterscheidbare Gruppen enthalten; -
Standardabweichung der Cluster: Wir steuern die Streuung der Datenpunkte innerhalb jedes Clusters und setzen sie auf
0.60für relativ kompakte Cluster; -
Random State: Wir verwenden einen festen
random_statefür Reproduzierbarkeit, sodass die Datenerzeugung bei jedem Ausführen des Codes konsistent bleibt.
X, y_true = make_blobs(n_samples=300,
centers=4,
cluster_std=0.60,
random_state=0)
K-Means-Implementierung
Mit diesen Dummy-Daten wenden wir anschließend den K-Means-Algorithmus an. Wir untersuchen, wie K-Means versucht, diese Daten anhand der zuvor behandelten Prinzipien in Cluster zu unterteilen.
K-Means kann in Python wie folgt initialisiert und trainiert werden:
kmeans = KMeans(n_clusters=k, random_state=42)
kmeans.fit(X)
Um die optimale Anzahl an Clustern für diese Daten zu bestimmen, wenden wir die in den vorherigen Kapiteln besprochenen Methoden an:
-
WSS-Methode: Wir berechnen die Within-Sum-of-Squares für verschiedene Werte von K und analysieren das Elbow-Diagramm, um ein mögliches optimales K zu identifizieren;
-
Silhouette-Score-Methode: Wir berechnen den Silhouette-Score für verschiedene Werte von K und betrachten das Silhouette-Diagramm sowie die durchschnittlichen Silhouette-Scores, um das K zu finden, das die Clusterqualität maximiert.
Abschließend spielen Visualisierungen eine entscheidende Rolle in unserer Implementierung. Wir visualisieren:
-
Die Dummy-Daten selbst, um die zugrunde liegende Clusterstruktur zu erkennen;
-
Das WSS-Diagramm, um den Elbow-Punkt zu identifizieren;
-
Das Silhouette-Diagramm, um die Clusterqualität für verschiedene K-Werte zu beurteilen;
-
Die finalen K-Means-Cluster überlagert auf den Dummy-Daten, um die Clustering-Ergebnisse und das gewählte optimale K visuell zu überprüfen.
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen