Implementierung auf Dummy-Datensatz
Sie werden nun ein praktisches Beispiel zur Anwendung des K-means-Clustering durchgehen. Dafür verwenden Sie einen Dummy-Datensatz. Dummy-Datensätze sind künstlich generierte Datensätze, die häufig zu Demonstrations- und Lernzwecken eingesetzt werden. Sie ermöglichen es, die Eigenschaften der Daten gezielt zu steuern und klar zu beobachten, wie Algorithmen wie K-means arbeiten.
Dummy-Datensatz
Für diese Demonstration erstellen wir einen Dummy-Datensatz mit der Funktion make_blobs(). Diese Funktion eignet sich hervorragend, um Cluster von Datenpunkten visuell klar und kontrollierbar zu erzeugen. Wir generieren Daten mit folgenden Eigenschaften:
-
Anzahl der Stichproben: Wir erstellen einen Datensatz mit
300Datenpunkten; -
Anzahl der Zentren: Wir setzen die Anzahl der tatsächlichen Cluster auf
4. Das bedeutet, die Dummy-Daten sind so gestaltet, dass sie vier unterschiedliche Gruppen enthalten; -
Standardabweichung der Cluster: Wir steuern die Streuung der Datenpunkte innerhalb jedes Clusters und setzen sie auf
0.60für relativ kompakte Cluster; -
Random State: Wir verwenden einen festen
random_statefür Reproduzierbarkeit, sodass die Datengenerierung bei jedem Ausführen des Codes konsistent bleibt.
X, y_true = make_blobs(n_samples=300,
centers=4,
cluster_std=0.60,
random_state=0)
K-Means-Implementierung
Mit diesen Dummy-Daten wenden wir anschließend den K-means-Algorithmus an. Wir untersuchen, wie K-means versucht, diese Daten in Cluster zu unterteilen, basierend auf den Prinzipien, die Sie in den vorherigen Kapiteln kennengelernt haben.
K-means kann in Python wie folgt initialisiert und trainiert werden:
kmeans = KMeans(n_clusters=k, random_state=42)
kmeans.fit(X)
Um die optimale Anzahl an Clustern für diese Daten zu bestimmen, verwenden wir die in den vorherigen Kapiteln besprochenen Methoden:
-
WSS-Methode: Wir berechnen die Within-Sum-of-Squares für verschiedene Werte von K und analysieren das Elbow-Plot, um ein potenziell optimales K zu identifizieren;
-
Silhouette-Score-Methode: Wir berechnen den Silhouette-Score für verschiedene Werte von K und betrachten das Silhouette-Plot sowie die durchschnittlichen Silhouette-Scores, um das K zu finden, das die Clusterqualität maximiert.
Abschließend spielen Visualisierungen eine entscheidende Rolle in unserer Implementierung. Wir visualisieren:
-
Die Dummy-Daten selbst, um die zugrundeliegende Clusterstruktur zu erkennen;
-
Das WSS-Plot, um den Elbow-Punkt zu identifizieren;
-
Das Silhouette-Plot, um die Clusterqualität für verschiedene K-Werte zu beurteilen;
-
Die finalen K-means-Cluster überlagert auf den Dummy-Daten, um die Clustering-Ergebnisse und das gewählte optimale K visuell zu überprüfen.
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen
Großartig!
Completion Rate verbessert auf 3.23
Implementierung auf Dummy-Datensatz
Swipe um das Menü anzuzeigen
Sie werden nun ein praktisches Beispiel zur Anwendung des K-means-Clustering durchgehen. Dafür verwenden Sie einen Dummy-Datensatz. Dummy-Datensätze sind künstlich generierte Datensätze, die häufig zu Demonstrations- und Lernzwecken eingesetzt werden. Sie ermöglichen es, die Eigenschaften der Daten gezielt zu steuern und klar zu beobachten, wie Algorithmen wie K-means arbeiten.
Dummy-Datensatz
Für diese Demonstration erstellen wir einen Dummy-Datensatz mit der Funktion make_blobs(). Diese Funktion eignet sich hervorragend, um Cluster von Datenpunkten visuell klar und kontrollierbar zu erzeugen. Wir generieren Daten mit folgenden Eigenschaften:
-
Anzahl der Stichproben: Wir erstellen einen Datensatz mit
300Datenpunkten; -
Anzahl der Zentren: Wir setzen die Anzahl der tatsächlichen Cluster auf
4. Das bedeutet, die Dummy-Daten sind so gestaltet, dass sie vier unterschiedliche Gruppen enthalten; -
Standardabweichung der Cluster: Wir steuern die Streuung der Datenpunkte innerhalb jedes Clusters und setzen sie auf
0.60für relativ kompakte Cluster; -
Random State: Wir verwenden einen festen
random_statefür Reproduzierbarkeit, sodass die Datengenerierung bei jedem Ausführen des Codes konsistent bleibt.
X, y_true = make_blobs(n_samples=300,
centers=4,
cluster_std=0.60,
random_state=0)
K-Means-Implementierung
Mit diesen Dummy-Daten wenden wir anschließend den K-means-Algorithmus an. Wir untersuchen, wie K-means versucht, diese Daten in Cluster zu unterteilen, basierend auf den Prinzipien, die Sie in den vorherigen Kapiteln kennengelernt haben.
K-means kann in Python wie folgt initialisiert und trainiert werden:
kmeans = KMeans(n_clusters=k, random_state=42)
kmeans.fit(X)
Um die optimale Anzahl an Clustern für diese Daten zu bestimmen, verwenden wir die in den vorherigen Kapiteln besprochenen Methoden:
-
WSS-Methode: Wir berechnen die Within-Sum-of-Squares für verschiedene Werte von K und analysieren das Elbow-Plot, um ein potenziell optimales K zu identifizieren;
-
Silhouette-Score-Methode: Wir berechnen den Silhouette-Score für verschiedene Werte von K und betrachten das Silhouette-Plot sowie die durchschnittlichen Silhouette-Scores, um das K zu finden, das die Clusterqualität maximiert.
Abschließend spielen Visualisierungen eine entscheidende Rolle in unserer Implementierung. Wir visualisieren:
-
Die Dummy-Daten selbst, um die zugrundeliegende Clusterstruktur zu erkennen;
-
Das WSS-Plot, um den Elbow-Punkt zu identifizieren;
-
Das Silhouette-Plot, um die Clusterqualität für verschiedene K-Werte zu beurteilen;
-
Die finalen K-means-Cluster überlagert auf den Dummy-Daten, um die Clustering-Ergebnisse und das gewählte optimale K visuell zu überprüfen.
Danke für Ihr Feedback!