Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Implementierung auf Realem Datensatz | Abschnitt
Practice
Projects
Quizzes & Challenges
Quizze
Challenges
/
Grundlagen des Unüberwachten Lernens

bookImplementierung auf Realem Datensatz

Nachdem Sie K-means an Beispieldaten geübt haben, können Sie es nun auf einen realen Datensatz anwenden: den Wine-Datensatz. Reale Datensätze weisen Komplexitäten wie unklare Clusterstrukturen und unterschiedliche Merkmals-Skalen auf, was eine praxisnähere Clustering-Herausforderung darstellt.

Sie verwenden die Funktion datasets.load_wine(), um diesen Datensatz zu laden. Der Wine-Datensatz enthält verschiedene Attribute unterschiedlicher Weine. Ziel ist es zu prüfen, ob K-means Cluster aufdecken kann, die Weinsimilaritäten anhand dieser Attribute widerspiegeln.

Reale Daten erfordern häufig eine Vorverarbeitung. Merkmals-Skalierung kann notwendig sein, damit alle Merkmale gleichwertig zu den Distanzberechnungen in K-means beitragen.

Um die optimale Anzahl an Clustern zu finden, verwenden Sie erneut:

  • WSS-Methode: Analyse des Elbow-Plots für verschiedene K-Werte. Die Ellbogen sind bei realen Daten möglicherweise weniger deutlich;

  • Silhouette-Score-Methode: Untersuchung des Silhouette-Plots und der durchschnittlichen Werte zur Bestimmung des besten K. Die Werte können variabler sein als bei Beispieldaten.

Visualisierungen sind entscheidend für das Verständnis der Ergebnisse:

  • Darstellung von 3 ausgewählten Merkmalen in einem 3D-Plot des Wine-Datensatzes ermöglicht eine visuelle Überprüfung der Datenverteilung in einem reduzierten Merkmalsraum, ohne Dimensionsreduktion;

  • WSS-Plot zur Identifikation des Ellbogens;

  • Silhouette-Plot zur Bewertung der Clusterqualität.

K-means-Cluster visualisiert im 3-Merkmale-3D-Plot der Weindaten, wobei die Clusterzuweisungen in diesem reduzierten Merkmalsraum dargestellt werden.

question mark

Warum wird eine Merkmals-Skalierung durchgeführt, bevor K-means-Clustering auf den Wine-Datensatz angewendet wird?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 12

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

bookImplementierung auf Realem Datensatz

Swipe um das Menü anzuzeigen

Nachdem Sie K-means an Beispieldaten geübt haben, können Sie es nun auf einen realen Datensatz anwenden: den Wine-Datensatz. Reale Datensätze weisen Komplexitäten wie unklare Clusterstrukturen und unterschiedliche Merkmals-Skalen auf, was eine praxisnähere Clustering-Herausforderung darstellt.

Sie verwenden die Funktion datasets.load_wine(), um diesen Datensatz zu laden. Der Wine-Datensatz enthält verschiedene Attribute unterschiedlicher Weine. Ziel ist es zu prüfen, ob K-means Cluster aufdecken kann, die Weinsimilaritäten anhand dieser Attribute widerspiegeln.

Reale Daten erfordern häufig eine Vorverarbeitung. Merkmals-Skalierung kann notwendig sein, damit alle Merkmale gleichwertig zu den Distanzberechnungen in K-means beitragen.

Um die optimale Anzahl an Clustern zu finden, verwenden Sie erneut:

  • WSS-Methode: Analyse des Elbow-Plots für verschiedene K-Werte. Die Ellbogen sind bei realen Daten möglicherweise weniger deutlich;

  • Silhouette-Score-Methode: Untersuchung des Silhouette-Plots und der durchschnittlichen Werte zur Bestimmung des besten K. Die Werte können variabler sein als bei Beispieldaten.

Visualisierungen sind entscheidend für das Verständnis der Ergebnisse:

  • Darstellung von 3 ausgewählten Merkmalen in einem 3D-Plot des Wine-Datensatzes ermöglicht eine visuelle Überprüfung der Datenverteilung in einem reduzierten Merkmalsraum, ohne Dimensionsreduktion;

  • WSS-Plot zur Identifikation des Ellbogens;

  • Silhouette-Plot zur Bewertung der Clusterqualität.

K-means-Cluster visualisiert im 3-Merkmale-3D-Plot der Weindaten, wobei die Clusterzuweisungen in diesem reduzierten Merkmalsraum dargestellt werden.

question mark

Warum wird eine Merkmals-Skalierung durchgeführt, bevor K-means-Clustering auf den Wine-Datensatz angewendet wird?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 12
some-alt