Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lära Implementering på Verklig Datamängd | Sektion
Grunderna i osupervised learning

bookImplementering på Verklig Datamängd

Efter att ha övat på K-means med testdata kan du nu tillämpa det på en verklig datamängd: wine dataset. Verkliga datamängder innebär komplexiteter som oklara klusterstrukturer och varierande skalor på attribut, vilket ger en mer praktisk klustringsutmaning.

Du kommer att använda funktionen datasets.load_wine() för att ladda denna datamängd. Wine dataset innehåller olika attribut för olika viner. Målet är att undersöka om K-means kan identifiera kluster som återspeglar vins likheter baserat på dessa attribut.

Verkliga data kräver ofta förbehandling. Skalning av attribut kan behövas för att säkerställa att alla attribut bidrar lika mycket till avståndsberäkningarna i K-means.

För att hitta det optimala antalet kluster används återigen:

  • WSS-metoden: analysera elbow-diagrammet för ett intervall av K-värden. Elbow kan vara mindre tydlig i verkliga data;

  • Silhouette score-metoden: undersök Silhouette-diagrammet och medelvärden för att hitta bästa K. Poängen kan vara mer varierande än med testdata.

Visualiseringar är avgörande för att förstå resultaten:

  • Plottning av 3 utvalda attribut i en 3D-plot av wine-datat gör det möjligt att visuellt undersöka datadistributionen i ett reducerat attribututrymme, utan att använda dimensionsreduktion;

  • WSS-diagram för identifiering av elbow;

  • Silhouette-diagram för klusterkvalitet.

K-means-kluster visualiserade på 3-attributs 3D-plot av wine-datat, vilket visar klustertilldelningar inom detta reducerade attribututrymme.

question mark

Varför utförs skalning av attribut innan K-means-klustring tillämpas på wine dataset?

Select the correct answer

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 1. Kapitel 12

Fråga AI

expand

Fråga AI

ChatGPT

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

bookImplementering på Verklig Datamängd

Svep för att visa menyn

Efter att ha övat på K-means med testdata kan du nu tillämpa det på en verklig datamängd: wine dataset. Verkliga datamängder innebär komplexiteter som oklara klusterstrukturer och varierande skalor på attribut, vilket ger en mer praktisk klustringsutmaning.

Du kommer att använda funktionen datasets.load_wine() för att ladda denna datamängd. Wine dataset innehåller olika attribut för olika viner. Målet är att undersöka om K-means kan identifiera kluster som återspeglar vins likheter baserat på dessa attribut.

Verkliga data kräver ofta förbehandling. Skalning av attribut kan behövas för att säkerställa att alla attribut bidrar lika mycket till avståndsberäkningarna i K-means.

För att hitta det optimala antalet kluster används återigen:

  • WSS-metoden: analysera elbow-diagrammet för ett intervall av K-värden. Elbow kan vara mindre tydlig i verkliga data;

  • Silhouette score-metoden: undersök Silhouette-diagrammet och medelvärden för att hitta bästa K. Poängen kan vara mer varierande än med testdata.

Visualiseringar är avgörande för att förstå resultaten:

  • Plottning av 3 utvalda attribut i en 3D-plot av wine-datat gör det möjligt att visuellt undersöka datadistributionen i ett reducerat attribututrymme, utan att använda dimensionsreduktion;

  • WSS-diagram för identifiering av elbow;

  • Silhouette-diagram för klusterkvalitet.

K-means-kluster visualiserade på 3-attributs 3D-plot av wine-datat, vilket visar klustertilldelningar inom detta reducerade attribututrymme.

question mark

Varför utförs skalning av attribut innan K-means-klustring tillämpas på wine dataset?

Select the correct answer

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 1. Kapitel 12
some-alt