Implementering på Virkeligt Datasæt
Efter at have øvet K-means på dummydata, kan du nu anvende det på et virkeligt datasæt: wine dataset. Virkelige datasæt indeholder kompleksiteter som uklare klyngestrukturer og forskellige skalaer for attributter, hvilket giver en mere praktisk klyngeudfordring.
Du vil bruge funktionen datasets.load_wine()
til at indlæse dette datasæt. Wine-datasættet indeholder forskellige attributter for forskellige vine. Målet er at undersøge, om K-means kan identificere klynger, der afspejler vinsimilituder baseret på disse attributter.
Virkelige data kræver ofte forbehandling. Feature scaling kan være nødvendig for at sikre, at alle attributter bidrager lige meget til afstandsberegninger i K-means.
For at finde det optimale antal klynger anvendes igen:
-
WSS-metoden: analyser albueplot for et interval af K-værdier. Albuer kan være mindre tydelige i virkelige data;
-
Silhouette score-metoden: undersøg Silhouette-plot og gennemsnitlige scores for at finde den bedste K. Scores kan være mere variable end med dummydata.
Visualiseringer er nøglen til at forstå resultaterne:
-
Plotning af 3 udvalgte attributter i et 3D-plot af wine-datasættet gør det muligt visuelt at inspicere datadistributionen i et reduceret attributrum, uden brug af dimensionalitetsreduktion;
-
WSS-plot til identifikation af albue;
-
Silhouette-plot for klyngekvalitet.
K-means-klynger visualiseret på 3-attribut 3D-plot af wine-data, der viser klyngetildelinger i dette reducerede attributrum.
Tak for dine kommentarer!
Spørg AI
Spørg AI
Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat
Awesome!
Completion rate improved to 2.94
Implementering på Virkeligt Datasæt
Stryg for at vise menuen
Efter at have øvet K-means på dummydata, kan du nu anvende det på et virkeligt datasæt: wine dataset. Virkelige datasæt indeholder kompleksiteter som uklare klyngestrukturer og forskellige skalaer for attributter, hvilket giver en mere praktisk klyngeudfordring.
Du vil bruge funktionen datasets.load_wine()
til at indlæse dette datasæt. Wine-datasættet indeholder forskellige attributter for forskellige vine. Målet er at undersøge, om K-means kan identificere klynger, der afspejler vinsimilituder baseret på disse attributter.
Virkelige data kræver ofte forbehandling. Feature scaling kan være nødvendig for at sikre, at alle attributter bidrager lige meget til afstandsberegninger i K-means.
For at finde det optimale antal klynger anvendes igen:
-
WSS-metoden: analyser albueplot for et interval af K-værdier. Albuer kan være mindre tydelige i virkelige data;
-
Silhouette score-metoden: undersøg Silhouette-plot og gennemsnitlige scores for at finde den bedste K. Scores kan være mere variable end med dummydata.
Visualiseringer er nøglen til at forstå resultaterne:
-
Plotning af 3 udvalgte attributter i et 3D-plot af wine-datasættet gør det muligt visuelt at inspicere datadistributionen i et reduceret attributrum, uden brug af dimensionalitetsreduktion;
-
WSS-plot til identifikation af albue;
-
Silhouette-plot for klyngekvalitet.
K-means-klynger visualiseret på 3-attribut 3D-plot af wine-data, der viser klyngetildelinger i dette reducerede attributrum.
Tak for dine kommentarer!