Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Optimaalinen Klusterien Määrä | Hierarkkinen Klusterointi
Klusterianalyysi

bookOptimaalinen Klusterien Määrä

Toisin kuin K-means-menetelmä, hierarkkinen klusterointi ei tuota suoraan kiinteää määrää klustereita. Sen sijaan se muodostaa hierarkian. Tarvitset menetelmän päättääksesi, mihin kohtaan dendrogrammia leikataan halutun klusterimäärän saavuttamiseksi.

Menetelmät klusterimäärän määrittämiseen

Optimaalisen klusterimäärän määrittämiseen käytetään yleisesti useita menetelmiä, kuten dendrogrammin visualisointia, kyynärpäämenetelmää ja silhuettimenetelmää.

Dendrogrammin visualisointi

Tässä menetelmässä tarkastellaan dendrogrammia visuaalisesti etsimällä suurimmat pystysuorat aukot, joita vaakasuorat viivat eivät leikkaa. Klustereiden määrä voidaan päätellä näiden aukkojen kattamien pystysuorien viivojen lukumäärästä. Tämä menetelmä on kuitenkin subjektiivinen ja perustuu vahvasti visuaaliseen tulkintaan.

Kyynärpäämenetelmä (within-cluster sum of squares - WCSS)

Tässä lähestymistavassa suoritetaan hierarkkinen klusterointi useilla eri klusterimäärillä ja lasketaan kullekin WCSS. Piirtämällä WCSS-arvot klusterimäärää vastaan voidaan tunnistaa kuvaajasta "kyynärpääkohta". Tämä kohta osoittaa hyvän tasapainon WCSS:n minimoinnin ja liiallisen klusterimäärän väliltä, samoin kuin K-means-menetelmässä.

Silhuettimenetelmä

Tässä menetelmässä lasketaan silhuettipisteet eri klusterimäärille leikkaamalla dendrogrammia eri korkeuksilta. Optimaalinen klusterimäärä on se, joka vastaa korkeinta keskimääräistä silhuettipistettä.

Note
Huomio

WCSS:n ja silhuettipisteiden laskeminen hierarkkisessa klusteroinnissa voi olla laskennallisesti raskasta, erityisesti suurilla aineistoilla.

Kun valitset klusterien määrää, myös ymmärryksesi datasta ja ratkaistavasta ongelmasta tulisi ohjata valintaasi.

question mark

Mikä seuraavista on yleisesti käytetty menetelmä klustereiden määrän määrittämiseen hierarkkisessa klusteroinnissa?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 4. Luku 2

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Suggested prompts:

Can you explain how to interpret a dendrogram to choose the number of clusters?

What are the steps to calculate the silhouette score for hierarchical clustering?

How does the elbow method work differently in hierarchical clustering compared to K-means?

Awesome!

Completion rate improved to 2.94

bookOptimaalinen Klusterien Määrä

Pyyhkäise näyttääksesi valikon

Toisin kuin K-means-menetelmä, hierarkkinen klusterointi ei tuota suoraan kiinteää määrää klustereita. Sen sijaan se muodostaa hierarkian. Tarvitset menetelmän päättääksesi, mihin kohtaan dendrogrammia leikataan halutun klusterimäärän saavuttamiseksi.

Menetelmät klusterimäärän määrittämiseen

Optimaalisen klusterimäärän määrittämiseen käytetään yleisesti useita menetelmiä, kuten dendrogrammin visualisointia, kyynärpäämenetelmää ja silhuettimenetelmää.

Dendrogrammin visualisointi

Tässä menetelmässä tarkastellaan dendrogrammia visuaalisesti etsimällä suurimmat pystysuorat aukot, joita vaakasuorat viivat eivät leikkaa. Klustereiden määrä voidaan päätellä näiden aukkojen kattamien pystysuorien viivojen lukumäärästä. Tämä menetelmä on kuitenkin subjektiivinen ja perustuu vahvasti visuaaliseen tulkintaan.

Kyynärpäämenetelmä (within-cluster sum of squares - WCSS)

Tässä lähestymistavassa suoritetaan hierarkkinen klusterointi useilla eri klusterimäärillä ja lasketaan kullekin WCSS. Piirtämällä WCSS-arvot klusterimäärää vastaan voidaan tunnistaa kuvaajasta "kyynärpääkohta". Tämä kohta osoittaa hyvän tasapainon WCSS:n minimoinnin ja liiallisen klusterimäärän väliltä, samoin kuin K-means-menetelmässä.

Silhuettimenetelmä

Tässä menetelmässä lasketaan silhuettipisteet eri klusterimäärille leikkaamalla dendrogrammia eri korkeuksilta. Optimaalinen klusterimäärä on se, joka vastaa korkeinta keskimääräistä silhuettipistettä.

Note
Huomio

WCSS:n ja silhuettipisteiden laskeminen hierarkkisessa klusteroinnissa voi olla laskennallisesti raskasta, erityisesti suurilla aineistoilla.

Kun valitset klusterien määrää, myös ymmärryksesi datasta ja ratkaistavasta ongelmasta tulisi ohjata valintaasi.

question mark

Mikä seuraavista on yleisesti käytetty menetelmä klustereiden määrän määrittämiseen hierarkkisessa klusteroinnissa?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 4. Luku 2
some-alt