Lernen Implementierung an Einem Realen Datensatz

Swipe um das Menü anzuzeigen

Nachdem Sie K-Means mit Dummy-Daten geübt haben, können Sie es nun auf einen realen Datensatz anwenden: den wine dataset. Reale Datensätze bringen Komplexitäten wie unklare Cluster-Strukturen und unterschiedliche Merkmals-Skalen mit sich und bieten somit eine praxisnähere Clustering-Herausforderung.

Sie verwenden die Funktion datasets.load_wine(), um diesen Datensatz zu laden. Der wine dataset enthält verschiedene Attribute unterschiedlicher Weine. Ziel ist es zu prüfen, ob K-Means Cluster aufdecken kann, die Weinsimilaritäten anhand dieser Attribute widerspiegeln.

Reale Daten erfordern häufig eine Vorverarbeitung. Feature Scaling kann notwendig sein, damit alle Merkmale gleichwertig zu den Distanzberechnungen in K-Means beitragen.

Um die optimale Anzahl an Clustern zu finden, verwenden Sie erneut:

WSS-Methode: Analyse des Elbow-Plots für verschiedene K-Werte. Elbows sind bei realen Daten möglicherweise weniger deutlich erkennbar;
Silhouette-Score-Methode: Untersuchung des Silhouette-Plots und der durchschnittlichen Scores zur Bestimmung des besten K. Die Scores können variabler sein als bei Dummy-Daten.

Visualisierungen sind entscheidend für das Verständnis der Ergebnisse:

Darstellung von 3 ausgewählten Merkmalen in einem 3D-Plot des wine dataset ermöglicht eine visuelle Überprüfung der Datenverteilung im reduzierten Merkmalsraum, ohne Dimensionsreduktion;
WSS-Plot zur Identifikation des Elbows;
Silhouette-Plot zur Bewertung der Cluster-Qualität.

K-Means-Cluster visualisiert im 3-Merkmale-3D-Plot des wine dataset, wobei die Cluster-Zuordnungen in diesem reduzierten Merkmalsraum dargestellt werden.

War alles klar?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 6

Fragen Sie AI

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Abschnitt 3. Kapitel 6