Implementierung auf Einem Dummy-Datensatz
Sie werden nun ein praktisches Beispiel für die Anwendung des K-means-Clustering durchgehen. Dazu verwenden Sie einen Dummy-Datensatz. Dummy-Datensätze sind künstlich generierte Datensätze, die häufig zu Demonstrations- und Lernzwecken eingesetzt werden. Sie ermöglichen es, die Eigenschaften der Daten zu kontrollieren und klar zu beobachten, wie Algorithmen wie K-means arbeiten.
Dummy-Datensatz
Für diese Demonstration erstellen wir einen Dummy-Datensatz mit der Funktion make_blobs()
. Diese Funktion eignet sich hervorragend, um Cluster von Datenpunkten auf eine visuell klare und kontrollierbare Weise zu generieren. Wir erzeugen Daten mit folgenden Eigenschaften:
-
Anzahl der Stichproben: Wir erstellen einen Datensatz mit
300
Datenpunkten; -
Anzahl der Zentren: Wir setzen die Anzahl der tatsächlichen Cluster auf
4
. Das bedeutet, dass die Dummy-Daten auf vier unterschiedliche Gruppen ausgelegt sind; -
Standardabweichung der Cluster: Wir steuern die Streuung der Datenpunkte innerhalb jedes Clusters und setzen sie auf
0.60
für relativ kompakte Cluster; -
Random State: Wir verwenden einen festen
random_state
für Reproduzierbarkeit, sodass die Datengenerierung bei jedem Ausführen des Codes konsistent ist.
X, y_true = make_blobs(n_samples=300,
centers=4,
cluster_std=0.60,
random_state=0)
K-Means-Implementierung
Mit diesen Dummy-Daten wenden wir anschließend den K-means-Algorithmus an. Wir untersuchen, wie K-means versucht, diese Daten in Cluster zu unterteilen, basierend auf den Prinzipien, die Sie in den vorherigen Kapiteln kennengelernt haben.
K-means kann in Python wie folgt initialisiert und trainiert werden:
kmeans = KMeans(n_clusters=k, random_state=42)
kmeans.fit(X)
Um die optimale Anzahl an Clustern für diese Daten zu bestimmen, verwenden wir die in den vorherigen Kapiteln besprochenen Methoden:
-
WSS-Methode: Wir berechnen die Within-Sum-of-Squares für verschiedene Werte von K und analysieren das Elbow-Diagramm, um ein potenziell optimales K zu identifizieren;
-
Silhouette-Score-Methode: Wir berechnen den Silhouette-Score für verschiedene Werte von K und untersuchen das Silhouette-Diagramm sowie die durchschnittlichen Silhouette-Scores, um das K zu finden, das die Clusterqualität maximiert.
Abschließend spielen Visualisierungen eine entscheidende Rolle in unserer Implementierung. Wir visualisieren:
-
Die Dummy-Daten selbst, um die zugrunde liegende Clusterstruktur zu erkennen;
-
Das WSS-Diagramm, um den Elbow-Punkt zu identifizieren;
-
Das Silhouette-Diagramm, um die Clusterqualität für verschiedene K-Werte zu beurteilen;
-
Die finalen K-means-Cluster überlagert auf den Dummy-Daten, um die Clustering-Ergebnisse und das gewählte optimale K visuell zu überprüfen.
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen
Awesome!
Completion rate improved to 2.94
Implementierung auf Einem Dummy-Datensatz
Swipe um das Menü anzuzeigen
Sie werden nun ein praktisches Beispiel für die Anwendung des K-means-Clustering durchgehen. Dazu verwenden Sie einen Dummy-Datensatz. Dummy-Datensätze sind künstlich generierte Datensätze, die häufig zu Demonstrations- und Lernzwecken eingesetzt werden. Sie ermöglichen es, die Eigenschaften der Daten zu kontrollieren und klar zu beobachten, wie Algorithmen wie K-means arbeiten.
Dummy-Datensatz
Für diese Demonstration erstellen wir einen Dummy-Datensatz mit der Funktion make_blobs()
. Diese Funktion eignet sich hervorragend, um Cluster von Datenpunkten auf eine visuell klare und kontrollierbare Weise zu generieren. Wir erzeugen Daten mit folgenden Eigenschaften:
-
Anzahl der Stichproben: Wir erstellen einen Datensatz mit
300
Datenpunkten; -
Anzahl der Zentren: Wir setzen die Anzahl der tatsächlichen Cluster auf
4
. Das bedeutet, dass die Dummy-Daten auf vier unterschiedliche Gruppen ausgelegt sind; -
Standardabweichung der Cluster: Wir steuern die Streuung der Datenpunkte innerhalb jedes Clusters und setzen sie auf
0.60
für relativ kompakte Cluster; -
Random State: Wir verwenden einen festen
random_state
für Reproduzierbarkeit, sodass die Datengenerierung bei jedem Ausführen des Codes konsistent ist.
X, y_true = make_blobs(n_samples=300,
centers=4,
cluster_std=0.60,
random_state=0)
K-Means-Implementierung
Mit diesen Dummy-Daten wenden wir anschließend den K-means-Algorithmus an. Wir untersuchen, wie K-means versucht, diese Daten in Cluster zu unterteilen, basierend auf den Prinzipien, die Sie in den vorherigen Kapiteln kennengelernt haben.
K-means kann in Python wie folgt initialisiert und trainiert werden:
kmeans = KMeans(n_clusters=k, random_state=42)
kmeans.fit(X)
Um die optimale Anzahl an Clustern für diese Daten zu bestimmen, verwenden wir die in den vorherigen Kapiteln besprochenen Methoden:
-
WSS-Methode: Wir berechnen die Within-Sum-of-Squares für verschiedene Werte von K und analysieren das Elbow-Diagramm, um ein potenziell optimales K zu identifizieren;
-
Silhouette-Score-Methode: Wir berechnen den Silhouette-Score für verschiedene Werte von K und untersuchen das Silhouette-Diagramm sowie die durchschnittlichen Silhouette-Scores, um das K zu finden, das die Clusterqualität maximiert.
Abschließend spielen Visualisierungen eine entscheidende Rolle in unserer Implementierung. Wir visualisieren:
-
Die Dummy-Daten selbst, um die zugrunde liegende Clusterstruktur zu erkennen;
-
Das WSS-Diagramm, um den Elbow-Punkt zu identifizieren;
-
Das Silhouette-Diagramm, um die Clusterqualität für verschiedene K-Werte zu beurteilen;
-
Die finalen K-means-Cluster überlagert auf den Dummy-Daten, um die Clustering-Ergebnisse und das gewählte optimale K visuell zu überprüfen.
Danke für Ihr Feedback!