Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Implementering på Ekte Datasett | K-Means
Klyngeanalyse

bookImplementering på Ekte Datasett

Etter å ha øvd på K-means med dummydata, kan du nå anvende det på et virkelig datasett: wine-datasettet. Virkelige datasett har ofte kompleksiteter som uklare klyngestrukturer og varierende skalaer på egenskaper, noe som gir en mer praktisk klyngeutfordring.

Du bruker funksjonen datasets.load_wine() for å laste inn dette datasettet. Wine-datasettet inneholder ulike attributter for forskjellige viner. Målet er å undersøke om K-means kan avdekke klynger som reflekterer vinsimilariteter basert på disse attributtene.

Virkelige data krever ofte forhåndsbehandling. Skalering av egenskaper kan være nødvendig for å sikre at alle egenskaper bidrar likt til avstandsberegningene i K-means.

For å finne det optimale antallet klynger, bruker du igjen:

  • WSS-metoden: analyser albueplottet for et utvalg av K-verdier. Albuer kan være mindre tydelige i virkelige data;

  • Silhouette score-metoden: undersøk Silhouette-plottet og gjennomsnittsscorene for å finne beste K. Scorene kan være mer variable enn med dummydata.

Visualiseringer er nøkkelen til å forstå resultatene:

  • Plotte 3 utvalgte egenskaper i et 3D-plott av wine-datasettet gir visuell inspeksjon av datadistribusjonen i et redusert egenskapsrom, uten bruk av dimensjonsreduksjon;

  • WSS-plott for identifisering av albue;

  • Silhouette-plott for klyngekvalitet.

K-means-klynger visualisert i 3D-plottet med 3 egenskaper fra wine-datasettet, som viser klyngetilhørighet i dette reduserte egenskapsrommet.

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 3. Kapittel 6

Spør AI

expand

Spør AI

ChatGPT

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Awesome!

Completion rate improved to 2.94

bookImplementering på Ekte Datasett

Sveip for å vise menyen

Etter å ha øvd på K-means med dummydata, kan du nå anvende det på et virkelig datasett: wine-datasettet. Virkelige datasett har ofte kompleksiteter som uklare klyngestrukturer og varierende skalaer på egenskaper, noe som gir en mer praktisk klyngeutfordring.

Du bruker funksjonen datasets.load_wine() for å laste inn dette datasettet. Wine-datasettet inneholder ulike attributter for forskjellige viner. Målet er å undersøke om K-means kan avdekke klynger som reflekterer vinsimilariteter basert på disse attributtene.

Virkelige data krever ofte forhåndsbehandling. Skalering av egenskaper kan være nødvendig for å sikre at alle egenskaper bidrar likt til avstandsberegningene i K-means.

For å finne det optimale antallet klynger, bruker du igjen:

  • WSS-metoden: analyser albueplottet for et utvalg av K-verdier. Albuer kan være mindre tydelige i virkelige data;

  • Silhouette score-metoden: undersøk Silhouette-plottet og gjennomsnittsscorene for å finne beste K. Scorene kan være mer variable enn med dummydata.

Visualiseringer er nøkkelen til å forstå resultatene:

  • Plotte 3 utvalgte egenskaper i et 3D-plott av wine-datasettet gir visuell inspeksjon av datadistribusjonen i et redusert egenskapsrom, uten bruk av dimensjonsreduksjon;

  • WSS-plott for identifisering av albue;

  • Silhouette-plott for klyngekvalitet.

K-means-klynger visualisert i 3D-plottet med 3 egenskaper fra wine-datasettet, som viser klyngetilhørighet i dette reduserte egenskapsrommet.

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 3. Kapittel 6
some-alt