Implementierung auf Dummy-Datensatz
Swipe um das Menü anzuzeigen
Sie werden nun ein praktisches Beispiel zur Anwendung des K-means-Clustering durchgehen. Dafür verwenden Sie einen Dummy-Datensatz. Dummy-Datensätze sind künstlich generierte Datensätze, die häufig zu Demonstrations- und Lernzwecken eingesetzt werden. Sie ermöglichen es, die Eigenschaften der Daten gezielt zu steuern und klar zu beobachten, wie Algorithmen wie K-means arbeiten.
Dummy-Datensatz
Für diese Demonstration erstellen wir einen Dummy-Datensatz mit der Funktion make_blobs(). Diese Funktion eignet sich hervorragend, um Cluster von Datenpunkten visuell klar und kontrollierbar zu erzeugen. Wir generieren Daten mit folgenden Eigenschaften:
-
Anzahl der Stichproben: Wir erstellen einen Datensatz mit
300Datenpunkten; -
Anzahl der Zentren: Wir setzen die Anzahl der tatsächlichen Cluster auf
4. Das bedeutet, die Dummy-Daten sind so gestaltet, dass sie vier unterschiedliche Gruppen enthalten; -
Standardabweichung der Cluster: Wir steuern die Streuung der Datenpunkte innerhalb jedes Clusters und setzen sie auf
0.60für relativ kompakte Cluster; -
Random State: Wir verwenden einen festen
random_statefür Reproduzierbarkeit, sodass die Datengenerierung bei jedem Ausführen des Codes konsistent bleibt.
X, y_true = make_blobs(n_samples=300,
centers=4,
cluster_std=0.60,
random_state=0)
K-Means-Implementierung
Mit diesen Dummy-Daten wenden wir anschließend den K-means-Algorithmus an. Wir untersuchen, wie K-means versucht, diese Daten in Cluster zu unterteilen, basierend auf den Prinzipien, die Sie in den vorherigen Kapiteln kennengelernt haben.
K-means kann in Python wie folgt initialisiert und trainiert werden:
kmeans = KMeans(n_clusters=k, random_state=42)
kmeans.fit(X)
Um die optimale Anzahl an Clustern für diese Daten zu bestimmen, verwenden wir die in den vorherigen Kapiteln besprochenen Methoden:
-
WSS-Methode: Wir berechnen die Within-Sum-of-Squares für verschiedene Werte von K und analysieren das Elbow-Plot, um ein potenziell optimales K zu identifizieren;
-
Silhouette-Score-Methode: Wir berechnen den Silhouette-Score für verschiedene Werte von K und betrachten das Silhouette-Plot sowie die durchschnittlichen Silhouette-Scores, um das K zu finden, das die Clusterqualität maximiert.
Abschließend spielen Visualisierungen eine entscheidende Rolle in unserer Implementierung. Wir visualisieren:
-
Die Dummy-Daten selbst, um die zugrundeliegende Clusterstruktur zu erkennen;
-
Das WSS-Plot, um den Elbow-Punkt zu identifizieren;
-
Das Silhouette-Plot, um die Clusterqualität für verschiedene K-Werte zu beurteilen;
-
Die finalen K-means-Cluster überlagert auf den Dummy-Daten, um die Clustering-Ergebnisse und das gewählte optimale K visuell zu überprüfen.
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen