Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Implementierung auf Einem Dummy-Datensatz | K-Means
Clusteranalyse

bookImplementierung auf Einem Dummy-Datensatz

Sie werden nun ein praktisches Beispiel für die Anwendung des K-means-Clustering durchgehen. Dazu verwenden Sie einen Dummy-Datensatz. Dummy-Datensätze sind künstlich generierte Datensätze, die häufig zu Demonstrations- und Lernzwecken eingesetzt werden. Sie ermöglichen es, die Eigenschaften der Daten zu kontrollieren und klar zu beobachten, wie Algorithmen wie K-means arbeiten.

Dummy-Datensatz

Für diese Demonstration erstellen wir einen Dummy-Datensatz mit der Funktion make_blobs(). Diese Funktion eignet sich hervorragend, um Cluster von Datenpunkten auf eine visuell klare und kontrollierbare Weise zu generieren. Wir erzeugen Daten mit folgenden Eigenschaften:

  • Anzahl der Stichproben: Wir erstellen einen Datensatz mit 300 Datenpunkten;

  • Anzahl der Zentren: Wir setzen die Anzahl der tatsächlichen Cluster auf 4. Das bedeutet, dass die Dummy-Daten auf vier unterschiedliche Gruppen ausgelegt sind;

  • Standardabweichung der Cluster: Wir steuern die Streuung der Datenpunkte innerhalb jedes Clusters und setzen sie auf 0.60 für relativ kompakte Cluster;

  • Random State: Wir verwenden einen festen random_state für Reproduzierbarkeit, sodass die Datengenerierung bei jedem Ausführen des Codes konsistent ist.

X, y_true = make_blobs(n_samples=300,
                       centers=4,
                       cluster_std=0.60,
                       random_state=0)

K-Means-Implementierung

Mit diesen Dummy-Daten wenden wir anschließend den K-means-Algorithmus an. Wir untersuchen, wie K-means versucht, diese Daten in Cluster zu unterteilen, basierend auf den Prinzipien, die Sie in den vorherigen Kapiteln kennengelernt haben.

K-means kann in Python wie folgt initialisiert und trainiert werden:

kmeans = KMeans(n_clusters=k, random_state=42) 
kmeans.fit(X)

Um die optimale Anzahl an Clustern für diese Daten zu bestimmen, verwenden wir die in den vorherigen Kapiteln besprochenen Methoden:

  • WSS-Methode: Wir berechnen die Within-Sum-of-Squares für verschiedene Werte von K und analysieren das Elbow-Diagramm, um ein potenziell optimales K zu identifizieren;

  • Silhouette-Score-Methode: Wir berechnen den Silhouette-Score für verschiedene Werte von K und untersuchen das Silhouette-Diagramm sowie die durchschnittlichen Silhouette-Scores, um das K zu finden, das die Clusterqualität maximiert.

Abschließend spielen Visualisierungen eine entscheidende Rolle in unserer Implementierung. Wir visualisieren:

  • Die Dummy-Daten selbst, um die zugrunde liegende Clusterstruktur zu erkennen;

  • Das WSS-Diagramm, um den Elbow-Punkt zu identifizieren;

  • Das Silhouette-Diagramm, um die Clusterqualität für verschiedene K-Werte zu beurteilen;

  • Die finalen K-means-Cluster überlagert auf den Dummy-Daten, um die Clustering-Ergebnisse und das gewählte optimale K visuell zu überprüfen.

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 5

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Awesome!

Completion rate improved to 2.94

bookImplementierung auf Einem Dummy-Datensatz

Swipe um das Menü anzuzeigen

Sie werden nun ein praktisches Beispiel für die Anwendung des K-means-Clustering durchgehen. Dazu verwenden Sie einen Dummy-Datensatz. Dummy-Datensätze sind künstlich generierte Datensätze, die häufig zu Demonstrations- und Lernzwecken eingesetzt werden. Sie ermöglichen es, die Eigenschaften der Daten zu kontrollieren und klar zu beobachten, wie Algorithmen wie K-means arbeiten.

Dummy-Datensatz

Für diese Demonstration erstellen wir einen Dummy-Datensatz mit der Funktion make_blobs(). Diese Funktion eignet sich hervorragend, um Cluster von Datenpunkten auf eine visuell klare und kontrollierbare Weise zu generieren. Wir erzeugen Daten mit folgenden Eigenschaften:

  • Anzahl der Stichproben: Wir erstellen einen Datensatz mit 300 Datenpunkten;

  • Anzahl der Zentren: Wir setzen die Anzahl der tatsächlichen Cluster auf 4. Das bedeutet, dass die Dummy-Daten auf vier unterschiedliche Gruppen ausgelegt sind;

  • Standardabweichung der Cluster: Wir steuern die Streuung der Datenpunkte innerhalb jedes Clusters und setzen sie auf 0.60 für relativ kompakte Cluster;

  • Random State: Wir verwenden einen festen random_state für Reproduzierbarkeit, sodass die Datengenerierung bei jedem Ausführen des Codes konsistent ist.

X, y_true = make_blobs(n_samples=300,
                       centers=4,
                       cluster_std=0.60,
                       random_state=0)

K-Means-Implementierung

Mit diesen Dummy-Daten wenden wir anschließend den K-means-Algorithmus an. Wir untersuchen, wie K-means versucht, diese Daten in Cluster zu unterteilen, basierend auf den Prinzipien, die Sie in den vorherigen Kapiteln kennengelernt haben.

K-means kann in Python wie folgt initialisiert und trainiert werden:

kmeans = KMeans(n_clusters=k, random_state=42) 
kmeans.fit(X)

Um die optimale Anzahl an Clustern für diese Daten zu bestimmen, verwenden wir die in den vorherigen Kapiteln besprochenen Methoden:

  • WSS-Methode: Wir berechnen die Within-Sum-of-Squares für verschiedene Werte von K und analysieren das Elbow-Diagramm, um ein potenziell optimales K zu identifizieren;

  • Silhouette-Score-Methode: Wir berechnen den Silhouette-Score für verschiedene Werte von K und untersuchen das Silhouette-Diagramm sowie die durchschnittlichen Silhouette-Scores, um das K zu finden, das die Clusterqualität maximiert.

Abschließend spielen Visualisierungen eine entscheidende Rolle in unserer Implementierung. Wir visualisieren:

  • Die Dummy-Daten selbst, um die zugrunde liegende Clusterstruktur zu erkennen;

  • Das WSS-Diagramm, um den Elbow-Punkt zu identifizieren;

  • Das Silhouette-Diagramm, um die Clusterqualität für verschiedene K-Werte zu beurteilen;

  • Die finalen K-means-Cluster überlagert auf den Dummy-Daten, um die Clustering-Ergebnisse und das gewählte optimale K visuell zu überprüfen.

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 5
some-alt