Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Implementering på Ekte Datasett | Seksjon
Grunnleggende Usupervisert Læring

bookImplementering på Ekte Datasett

Etter å ha øvd på K-means med dummydata, kan du nå anvende det på et virkelig datasett: wine dataset. Virkelige datasett har ofte kompleksiteter som uklare klyngestrukturer og varierende skala på egenskaper, noe som gir en mer praktisk klyngeutfordring.

Du skal bruke funksjonen datasets.load_wine() for å laste inn dette datasettet. Wine-datasettet inneholder ulike attributter for forskjellige viner. Målet er å undersøke om K-means kan identifisere klynger som reflekterer vinsimilariteter basert på disse attributtene.

Virkelige data krever ofte forhåndsbehandling. Skalering av egenskaper kan være nødvendig for å sikre at alle egenskaper bidrar likt til avstandsberegningene i K-means.

For å finne det optimale antallet klynger skal du igjen bruke:

  • WSS-metoden: analyser elbow-plottet for et utvalg av K-verdier. Elbows kan være mindre tydelige i virkelige data;

  • Silhouette score-metoden: vurder Silhouette-plottet og gjennomsnittsscorene for å finne beste K. Scorene kan være mer variable enn med dummydata.

Visualiseringer er nøkkelen til å forstå resultatene:

  • Plotting av 3 utvalgte egenskaper i et 3D-plott av vinene gir mulighet til å visuelt inspisere datadistribusjonen i et redusert egenskapsrom, uten bruk av dimensjonsreduksjon;

  • WSS-plott for identifisering av elbow;

  • Silhouette-plott for vurdering av klyngekvalitet.

K-means-klynger visualisert i 3-egenskaps 3D-plottet av vindataene, som viser klyngetilhørighet i dette reduserte egenskapsrommet.

question mark

Hvorfor utføres skalering av egenskaper før K-means-klynging på wine-datasettet?

Select the correct answer

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 1. Kapittel 12

Spør AI

expand

Spør AI

ChatGPT

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

bookImplementering på Ekte Datasett

Sveip for å vise menyen

Etter å ha øvd på K-means med dummydata, kan du nå anvende det på et virkelig datasett: wine dataset. Virkelige datasett har ofte kompleksiteter som uklare klyngestrukturer og varierende skala på egenskaper, noe som gir en mer praktisk klyngeutfordring.

Du skal bruke funksjonen datasets.load_wine() for å laste inn dette datasettet. Wine-datasettet inneholder ulike attributter for forskjellige viner. Målet er å undersøke om K-means kan identifisere klynger som reflekterer vinsimilariteter basert på disse attributtene.

Virkelige data krever ofte forhåndsbehandling. Skalering av egenskaper kan være nødvendig for å sikre at alle egenskaper bidrar likt til avstandsberegningene i K-means.

For å finne det optimale antallet klynger skal du igjen bruke:

  • WSS-metoden: analyser elbow-plottet for et utvalg av K-verdier. Elbows kan være mindre tydelige i virkelige data;

  • Silhouette score-metoden: vurder Silhouette-plottet og gjennomsnittsscorene for å finne beste K. Scorene kan være mer variable enn med dummydata.

Visualiseringer er nøkkelen til å forstå resultatene:

  • Plotting av 3 utvalgte egenskaper i et 3D-plott av vinene gir mulighet til å visuelt inspisere datadistribusjonen i et redusert egenskapsrom, uten bruk av dimensjonsreduksjon;

  • WSS-plott for identifisering av elbow;

  • Silhouette-plott for vurdering av klyngekvalitet.

K-means-klynger visualisert i 3-egenskaps 3D-plottet av vindataene, som viser klyngetilhørighet i dette reduserte egenskapsrommet.

question mark

Hvorfor utføres skalering av egenskaper før K-means-klynging på wine-datasettet?

Select the correct answer

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 1. Kapittel 12
some-alt