Implementering på Ekte Datasett
Etter å ha øvd på K-means med dummydata, kan du nå anvende det på et virkelig datasett: wine dataset. Virkelige datasett har ofte kompleksiteter som uklare klyngestrukturer og varierende skala på egenskaper, noe som gir en mer praktisk klyngeutfordring.
Du skal bruke funksjonen datasets.load_wine() for å laste inn dette datasettet. Wine-datasettet inneholder ulike attributter for forskjellige viner. Målet er å undersøke om K-means kan identifisere klynger som reflekterer vinsimilariteter basert på disse attributtene.
Virkelige data krever ofte forhåndsbehandling. Skalering av egenskaper kan være nødvendig for å sikre at alle egenskaper bidrar likt til avstandsberegningene i K-means.
For å finne det optimale antallet klynger skal du igjen bruke:
-
WSS-metoden: analyser elbow-plottet for et utvalg av K-verdier. Elbows kan være mindre tydelige i virkelige data;
-
Silhouette score-metoden: vurder Silhouette-plottet og gjennomsnittsscorene for å finne beste K. Scorene kan være mer variable enn med dummydata.
Visualiseringer er nøkkelen til å forstå resultatene:
-
Plotting av 3 utvalgte egenskaper i et 3D-plott av vinene gir mulighet til å visuelt inspisere datadistribusjonen i et redusert egenskapsrom, uten bruk av dimensjonsreduksjon;
-
WSS-plott for identifisering av elbow;
-
Silhouette-plott for vurdering av klyngekvalitet.
K-means-klynger visualisert i 3-egenskaps 3D-plottet av vindataene, som viser klyngetilhørighet i dette reduserte egenskapsrommet.
Takk for tilbakemeldingene dine!
Spør AI
Spør AI
Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår
Fantastisk!
Completion rate forbedret til 3.23
Implementering på Ekte Datasett
Sveip for å vise menyen
Etter å ha øvd på K-means med dummydata, kan du nå anvende det på et virkelig datasett: wine dataset. Virkelige datasett har ofte kompleksiteter som uklare klyngestrukturer og varierende skala på egenskaper, noe som gir en mer praktisk klyngeutfordring.
Du skal bruke funksjonen datasets.load_wine() for å laste inn dette datasettet. Wine-datasettet inneholder ulike attributter for forskjellige viner. Målet er å undersøke om K-means kan identifisere klynger som reflekterer vinsimilariteter basert på disse attributtene.
Virkelige data krever ofte forhåndsbehandling. Skalering av egenskaper kan være nødvendig for å sikre at alle egenskaper bidrar likt til avstandsberegningene i K-means.
For å finne det optimale antallet klynger skal du igjen bruke:
-
WSS-metoden: analyser elbow-plottet for et utvalg av K-verdier. Elbows kan være mindre tydelige i virkelige data;
-
Silhouette score-metoden: vurder Silhouette-plottet og gjennomsnittsscorene for å finne beste K. Scorene kan være mer variable enn med dummydata.
Visualiseringer er nøkkelen til å forstå resultatene:
-
Plotting av 3 utvalgte egenskaper i et 3D-plott av vinene gir mulighet til å visuelt inspisere datadistribusjonen i et redusert egenskapsrom, uten bruk av dimensjonsreduksjon;
-
WSS-plott for identifisering av elbow;
-
Silhouette-plott for vurdering av klyngekvalitet.
K-means-klynger visualisert i 3-egenskaps 3D-plottet av vindataene, som viser klyngetilhørighet i dette reduserte egenskapsrommet.
Takk for tilbakemeldingene dine!