Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Implementering på Ekte Datasett | K-Means
Practice
Projects
Quizzes & Challenges
Quizzes
Challenges
/
Klyngeanalyse med Python

bookImplementering på Ekte Datasett

Etter å ha øvd på K-means med eksempeldata, kan du nå anvende det på et virkelig datasett: wine dataset. Virkelige datasett har ofte utfordringer som uklare klyngestrukturer og varierende skala på egenskaper, noe som gir en mer praktisk klyngeutfordring.

Du bruker funksjonen datasets.load_wine() for å laste inn dette datasettet. Wine-datasettet inneholder ulike attributter for forskjellige viner. Målet er å undersøke om K-means kan avdekke klynger som reflekterer vinsimilariteter basert på disse attributtene.

Virkelige data krever ofte forhåndsbehandling. Skalering av egenskaper kan være nødvendig for å sikre at alle egenskaper bidrar likt til avstandsberegningene i K-means.

For å finne det optimale antallet klynger bruker du igjen:

  • WSS-metoden: analyser albueplottet for et utvalg av K-verdier. Albuer kan være mindre tydelige i virkelige data;

  • Silhouette score-metoden: vurder Silhouette-plottet og gjennomsnittsscorene for å finne beste K. Scorene kan være mer varierende enn med eksempeldata.

Visualiseringer er nøkkelen til å forstå resultatene:

  • Plott 3 utvalgte egenskaper i et 3D-plott av vinene for å visuelt inspisere datadistribusjonen i et redusert egenskapsrom, uten bruk av dimensjonsreduksjon;

  • WSS-plott for identifisering av albuepunkt;

  • Silhouette-plott for vurdering av klyngekvalitet.

K-means-klynger visualisert i 3-egenskaps 3D-plottet av vindataene, som viser klyngetilhørighet i dette reduserte egenskapsrommet.

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 3. Kapittel 6

Spør AI

expand

Spør AI

ChatGPT

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Suggested prompts:

Can you explain why feature scaling is important for K-means clustering?

How do I interpret the elbow and silhouette plots for choosing the optimal number of clusters?

Can you describe how the 3D plot helps in visualizing the clusters in the wine dataset?

bookImplementering på Ekte Datasett

Sveip for å vise menyen

Etter å ha øvd på K-means med eksempeldata, kan du nå anvende det på et virkelig datasett: wine dataset. Virkelige datasett har ofte utfordringer som uklare klyngestrukturer og varierende skala på egenskaper, noe som gir en mer praktisk klyngeutfordring.

Du bruker funksjonen datasets.load_wine() for å laste inn dette datasettet. Wine-datasettet inneholder ulike attributter for forskjellige viner. Målet er å undersøke om K-means kan avdekke klynger som reflekterer vinsimilariteter basert på disse attributtene.

Virkelige data krever ofte forhåndsbehandling. Skalering av egenskaper kan være nødvendig for å sikre at alle egenskaper bidrar likt til avstandsberegningene i K-means.

For å finne det optimale antallet klynger bruker du igjen:

  • WSS-metoden: analyser albueplottet for et utvalg av K-verdier. Albuer kan være mindre tydelige i virkelige data;

  • Silhouette score-metoden: vurder Silhouette-plottet og gjennomsnittsscorene for å finne beste K. Scorene kan være mer varierende enn med eksempeldata.

Visualiseringer er nøkkelen til å forstå resultatene:

  • Plott 3 utvalgte egenskaper i et 3D-plott av vinene for å visuelt inspisere datadistribusjonen i et redusert egenskapsrom, uten bruk av dimensjonsreduksjon;

  • WSS-plott for identifisering av albuepunkt;

  • Silhouette-plott for vurdering av klyngekvalitet.

K-means-klynger visualisert i 3-egenskaps 3D-plottet av vindataene, som viser klyngetilhørighet i dette reduserte egenskapsrommet.

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 3. Kapittel 6
some-alt