Implementierung auf einem Dummy-Datensatz
Sie werden nun ein praktisches Beispiel für die Anwendung des K-Means-Clustering durchgehen. Dazu verwenden Sie einen Dummy-Datensatz. Dummy-Datensätze sind künstlich generierte Datensätze, die häufig zu Demonstrations- und Lernzwecken eingesetzt werden. Sie ermöglichen es, die Eigenschaften der Daten gezielt zu steuern und klar zu beobachten, wie Algorithmen wie K-Means arbeiten.
Dummy-Datensatz
Für diese Demonstration erstellen wir einen Dummy-Datensatz mit der Funktion make_blobs()
. Diese Funktion eignet sich hervorragend, um Cluster von Datenpunkten auf eine visuell übersichtliche und kontrollierbare Weise zu generieren. Wir erzeugen Daten mit folgenden Eigenschaften:
-
Anzahl der Stichproben: Wir erstellen einen Datensatz mit
300
Datenpunkten; -
Anzahl der Zentren: Wir setzen die Anzahl der tatsächlichen Cluster auf
4
. Das bedeutet, dass die Dummy-Daten vier klar unterscheidbare Gruppen enthalten; -
Standardabweichung der Cluster: Wir steuern die Streuung der Datenpunkte innerhalb jedes Clusters und setzen sie auf
0.60
für relativ kompakte Cluster; -
Random State: Wir verwenden einen festen
random_state
für Reproduzierbarkeit, sodass die Datenerzeugung bei jedem Ausführen des Codes konsistent bleibt.
X, y_true = make_blobs(n_samples=300,
centers=4,
cluster_std=0.60,
random_state=0)
K-Means-Implementierung
Mit diesen Dummy-Daten wenden wir anschließend den K-Means-Algorithmus an. Wir untersuchen, wie K-Means versucht, diese Daten anhand der zuvor behandelten Prinzipien in Cluster zu unterteilen.
K-Means kann in Python wie folgt initialisiert und trainiert werden:
kmeans = KMeans(n_clusters=k, random_state=42)
kmeans.fit(X)
Um die optimale Anzahl an Clustern für diese Daten zu bestimmen, wenden wir die in den vorherigen Kapiteln besprochenen Methoden an:
-
WSS-Methode: Wir berechnen die Within-Sum-of-Squares für verschiedene Werte von K und analysieren das Elbow-Diagramm, um ein mögliches optimales K zu identifizieren;
-
Silhouette-Score-Methode: Wir berechnen den Silhouette-Score für verschiedene Werte von K und betrachten das Silhouette-Diagramm sowie die durchschnittlichen Silhouette-Scores, um das K zu finden, das die Clusterqualität maximiert.
Abschließend spielen Visualisierungen eine entscheidende Rolle in unserer Implementierung. Wir visualisieren:
-
Die Dummy-Daten selbst, um die zugrunde liegende Clusterstruktur zu erkennen;
-
Das WSS-Diagramm, um den Elbow-Punkt zu identifizieren;
-
Das Silhouette-Diagramm, um die Clusterqualität für verschiedene K-Werte zu beurteilen;
-
Die finalen K-Means-Cluster überlagert auf den Dummy-Daten, um die Clustering-Ergebnisse und das gewählte optimale K visuell zu überprüfen.
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen
Awesome!
Completion rate improved to 2.94
Implementierung auf einem Dummy-Datensatz
Swipe um das Menü anzuzeigen
Sie werden nun ein praktisches Beispiel für die Anwendung des K-Means-Clustering durchgehen. Dazu verwenden Sie einen Dummy-Datensatz. Dummy-Datensätze sind künstlich generierte Datensätze, die häufig zu Demonstrations- und Lernzwecken eingesetzt werden. Sie ermöglichen es, die Eigenschaften der Daten gezielt zu steuern und klar zu beobachten, wie Algorithmen wie K-Means arbeiten.
Dummy-Datensatz
Für diese Demonstration erstellen wir einen Dummy-Datensatz mit der Funktion make_blobs()
. Diese Funktion eignet sich hervorragend, um Cluster von Datenpunkten auf eine visuell übersichtliche und kontrollierbare Weise zu generieren. Wir erzeugen Daten mit folgenden Eigenschaften:
-
Anzahl der Stichproben: Wir erstellen einen Datensatz mit
300
Datenpunkten; -
Anzahl der Zentren: Wir setzen die Anzahl der tatsächlichen Cluster auf
4
. Das bedeutet, dass die Dummy-Daten vier klar unterscheidbare Gruppen enthalten; -
Standardabweichung der Cluster: Wir steuern die Streuung der Datenpunkte innerhalb jedes Clusters und setzen sie auf
0.60
für relativ kompakte Cluster; -
Random State: Wir verwenden einen festen
random_state
für Reproduzierbarkeit, sodass die Datenerzeugung bei jedem Ausführen des Codes konsistent bleibt.
X, y_true = make_blobs(n_samples=300,
centers=4,
cluster_std=0.60,
random_state=0)
K-Means-Implementierung
Mit diesen Dummy-Daten wenden wir anschließend den K-Means-Algorithmus an. Wir untersuchen, wie K-Means versucht, diese Daten anhand der zuvor behandelten Prinzipien in Cluster zu unterteilen.
K-Means kann in Python wie folgt initialisiert und trainiert werden:
kmeans = KMeans(n_clusters=k, random_state=42)
kmeans.fit(X)
Um die optimale Anzahl an Clustern für diese Daten zu bestimmen, wenden wir die in den vorherigen Kapiteln besprochenen Methoden an:
-
WSS-Methode: Wir berechnen die Within-Sum-of-Squares für verschiedene Werte von K und analysieren das Elbow-Diagramm, um ein mögliches optimales K zu identifizieren;
-
Silhouette-Score-Methode: Wir berechnen den Silhouette-Score für verschiedene Werte von K und betrachten das Silhouette-Diagramm sowie die durchschnittlichen Silhouette-Scores, um das K zu finden, das die Clusterqualität maximiert.
Abschließend spielen Visualisierungen eine entscheidende Rolle in unserer Implementierung. Wir visualisieren:
-
Die Dummy-Daten selbst, um die zugrunde liegende Clusterstruktur zu erkennen;
-
Das WSS-Diagramm, um den Elbow-Punkt zu identifizieren;
-
Das Silhouette-Diagramm, um die Clusterqualität für verschiedene K-Werte zu beurteilen;
-
Die finalen K-Means-Cluster überlagert auf den Dummy-Daten, um die Clustering-Ergebnisse und das gewählte optimale K visuell zu überprüfen.
Danke für Ihr Feedback!