Implementierung an Einem Realen Datensatz
Nachdem Sie K-Means an Beispieldaten geübt haben, können Sie es nun auf einen realen Datensatz anwenden: den Wine-Datensatz. Reale Datensätze weisen Komplexitäten wie unklare Clusterstrukturen und unterschiedliche Merkmals-Skalen auf und bieten somit eine praxisnähere Clustering-Herausforderung.
Sie verwenden die Funktion datasets.load_wine()
, um diesen Datensatz zu laden. Der Wine-Datensatz enthält verschiedene Attribute unterschiedlicher Weine. Ziel ist es zu prüfen, ob K-Means Cluster erkennen kann, die Weinähnlichkeiten auf Basis dieser Attribute widerspiegeln.
Reale Daten erfordern häufig eine Vorverarbeitung. Merkmals-Skalierung kann notwendig sein, damit alle Merkmale gleichwertig zu den Distanzberechnungen in K-Means beitragen.
Um die optimale Clusteranzahl zu finden, verwenden Sie erneut:
-
WSS-Methode: Analyse des Elbow-Plots für verschiedene K-Werte. Die Ellbogen sind bei realen Daten möglicherweise weniger deutlich;
-
Silhouette-Score-Methode: Untersuchung des Silhouette-Plots und der durchschnittlichen Werte zur Bestimmung des besten K. Die Werte können variabler sein als bei Beispieldaten.
Visualisierungen sind entscheidend für das Verständnis der Ergebnisse:
-
Darstellung von 3 ausgewählten Merkmalen in einem 3D-Plot des Wine-Datensatzes, um die Verteilung der Daten im reduzierten Merkmalsraum visuell zu inspizieren, ohne Dimensionsreduktion;
-
WSS-Plot zur Identifikation des Ellbogens;
-
Silhouette-Plot zur Bewertung der Clusterqualität.
K-Means-Cluster visualisiert im 3-Merkmals-3D-Plot des Wine-Datensatzes, wobei die Clusterzugehörigkeiten in diesem reduzierten Merkmalsraum dargestellt werden.
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen
Awesome!
Completion rate improved to 2.94
Implementierung an Einem Realen Datensatz
Swipe um das Menü anzuzeigen
Nachdem Sie K-Means an Beispieldaten geübt haben, können Sie es nun auf einen realen Datensatz anwenden: den Wine-Datensatz. Reale Datensätze weisen Komplexitäten wie unklare Clusterstrukturen und unterschiedliche Merkmals-Skalen auf und bieten somit eine praxisnähere Clustering-Herausforderung.
Sie verwenden die Funktion datasets.load_wine()
, um diesen Datensatz zu laden. Der Wine-Datensatz enthält verschiedene Attribute unterschiedlicher Weine. Ziel ist es zu prüfen, ob K-Means Cluster erkennen kann, die Weinähnlichkeiten auf Basis dieser Attribute widerspiegeln.
Reale Daten erfordern häufig eine Vorverarbeitung. Merkmals-Skalierung kann notwendig sein, damit alle Merkmale gleichwertig zu den Distanzberechnungen in K-Means beitragen.
Um die optimale Clusteranzahl zu finden, verwenden Sie erneut:
-
WSS-Methode: Analyse des Elbow-Plots für verschiedene K-Werte. Die Ellbogen sind bei realen Daten möglicherweise weniger deutlich;
-
Silhouette-Score-Methode: Untersuchung des Silhouette-Plots und der durchschnittlichen Werte zur Bestimmung des besten K. Die Werte können variabler sein als bei Beispieldaten.
Visualisierungen sind entscheidend für das Verständnis der Ergebnisse:
-
Darstellung von 3 ausgewählten Merkmalen in einem 3D-Plot des Wine-Datensatzes, um die Verteilung der Daten im reduzierten Merkmalsraum visuell zu inspizieren, ohne Dimensionsreduktion;
-
WSS-Plot zur Identifikation des Ellbogens;
-
Silhouette-Plot zur Bewertung der Clusterqualität.
K-Means-Cluster visualisiert im 3-Merkmals-3D-Plot des Wine-Datensatzes, wobei die Clusterzugehörigkeiten in diesem reduzierten Merkmalsraum dargestellt werden.
Danke für Ihr Feedback!