Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Implementering på et Reelt Datasæt | Sektion
Practice
Projects
Quizzes & Challenges
Quizzer
Challenges
/
Grundlæggende Ikke-Superviseret Læring

bookImplementering på et Reelt Datasæt

Efter at have øvet K-means på dummydata, kan du nu anvende det på et virkeligt datasæt: wine dataset. Virkelige datasæt indeholder kompleksiteter som uklare klyngestrukturer og forskellige skalaer for attributter, hvilket giver en mere praktisk klyngeudfordring.

Du vil bruge funktionen datasets.load_wine() til at indlæse dette datasæt. Wine datasættet indeholder forskellige attributter for forskellige vine. Målet er at undersøge, om K-means kan identificere klynger, der afspejler vinsligheder baseret på disse attributter.

Virkelige data kræver ofte forbehandling. Feature scaling kan være nødvendig for at sikre, at alle attributter bidrager lige meget til afstandsberegninger i K-means.

For at finde det optimale antal klynger anvendes igen:

  • WSS-metoden: analyser elbow-plottet for et interval af K-værdier. Elbows kan være mindre tydelige i virkelige data;

  • Silhouette score-metoden: undersøg Silhouette-plottet og gennemsnitlige scores for at finde den bedste K. Scores kan være mere variable end med dummydata.

Visualiseringer er nøglen til at forstå resultaterne:

  • Plotning af 3 udvalgte attributter i et 3D-plot af wine giver mulighed for visuelt at inspicere datadistributionen i et reduceret attributrum, uden brug af dimensionalitetsreduktion;

  • WSS-plot til identifikation af elbow;

  • Silhouette-plot til vurdering af klyngekvalitet.

K-means-klynger visualiseret på 3-attributters 3D-plot af wine-data, der viser klyngetildelinger i dette reducerede attributrum.

question mark

Hvorfor udføres feature scaling før K-means clustering på wine datasættet?

Select the correct answer

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 1. Kapitel 12

Spørg AI

expand

Spørg AI

ChatGPT

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

bookImplementering på et Reelt Datasæt

Stryg for at vise menuen

Efter at have øvet K-means på dummydata, kan du nu anvende det på et virkeligt datasæt: wine dataset. Virkelige datasæt indeholder kompleksiteter som uklare klyngestrukturer og forskellige skalaer for attributter, hvilket giver en mere praktisk klyngeudfordring.

Du vil bruge funktionen datasets.load_wine() til at indlæse dette datasæt. Wine datasættet indeholder forskellige attributter for forskellige vine. Målet er at undersøge, om K-means kan identificere klynger, der afspejler vinsligheder baseret på disse attributter.

Virkelige data kræver ofte forbehandling. Feature scaling kan være nødvendig for at sikre, at alle attributter bidrager lige meget til afstandsberegninger i K-means.

For at finde det optimale antal klynger anvendes igen:

  • WSS-metoden: analyser elbow-plottet for et interval af K-værdier. Elbows kan være mindre tydelige i virkelige data;

  • Silhouette score-metoden: undersøg Silhouette-plottet og gennemsnitlige scores for at finde den bedste K. Scores kan være mere variable end med dummydata.

Visualiseringer er nøglen til at forstå resultaterne:

  • Plotning af 3 udvalgte attributter i et 3D-plot af wine giver mulighed for visuelt at inspicere datadistributionen i et reduceret attributrum, uden brug af dimensionalitetsreduktion;

  • WSS-plot til identifikation af elbow;

  • Silhouette-plot til vurdering af klyngekvalitet.

K-means-klynger visualiseret på 3-attributters 3D-plot af wine-data, der viser klyngetildelinger i dette reducerede attributrum.

question mark

Hvorfor udføres feature scaling før K-means clustering på wine datasættet?

Select the correct answer

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 1. Kapitel 12
some-alt