Optimaalinen Klusterien Määrä
Toisin kuin K-means-menetelmä, hierarkkinen klusterointi ei tuota suoraan kiinteää määrää klustereita. Sen sijaan se muodostaa hierarkian. Tarvitset menetelmän päättääksesi, mihin kohtaan dendrogrammia leikataan halutun klusterimäärän saavuttamiseksi.
Menetelmät klusterimäärän määrittämiseen
Optimaalisen klusterimäärän määrittämiseen käytetään yleisesti useita menetelmiä, kuten dendrogrammin visualisointia, kyynärpäämenetelmää ja silhuettimenetelmää.
Dendrogrammin visualisointi
Tässä menetelmässä tarkastellaan dendrogrammia visuaalisesti etsimällä suurimmat pystysuorat aukot, joita vaakasuorat viivat eivät leikkaa. Klustereiden määrä voidaan päätellä näiden aukkojen kattamien pystysuorien viivojen lukumäärästä. Tämä menetelmä on kuitenkin subjektiivinen ja perustuu vahvasti visuaaliseen tulkintaan.
Kyynärpäämenetelmä (within-cluster sum of squares - WCSS)
Tässä lähestymistavassa suoritetaan hierarkkinen klusterointi useilla eri klusterimäärillä ja lasketaan kullekin WCSS. Piirtämällä WCSS-arvot klusterimäärää vastaan voidaan tunnistaa kuvaajasta "kyynärpääkohta". Tämä kohta osoittaa hyvän tasapainon WCSS:n minimoinnin ja liiallisen klusterimäärän väliltä, samoin kuin K-means-menetelmässä.
Silhuettimenetelmä
Tässä menetelmässä lasketaan silhuettipisteet eri klusterimäärille leikkaamalla dendrogrammia eri korkeuksilta. Optimaalinen klusterimäärä on se, joka vastaa korkeinta keskimääräistä silhuettipistettä.
WCSS:n ja silhuettipisteiden laskeminen hierarkkisessa klusteroinnissa voi olla laskennallisesti raskasta, erityisesti suurilla aineistoilla.
Kun valitset klusterien määrää, myös ymmärryksesi datasta ja ratkaistavasta ongelmasta tulisi ohjata valintaasi.
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
Can you explain how to interpret a dendrogram to choose the number of clusters?
What are the steps to calculate the silhouette score for hierarchical clustering?
How does the elbow method work differently in hierarchical clustering compared to K-means?
Awesome!
Completion rate improved to 2.94
Optimaalinen Klusterien Määrä
Pyyhkäise näyttääksesi valikon
Toisin kuin K-means-menetelmä, hierarkkinen klusterointi ei tuota suoraan kiinteää määrää klustereita. Sen sijaan se muodostaa hierarkian. Tarvitset menetelmän päättääksesi, mihin kohtaan dendrogrammia leikataan halutun klusterimäärän saavuttamiseksi.
Menetelmät klusterimäärän määrittämiseen
Optimaalisen klusterimäärän määrittämiseen käytetään yleisesti useita menetelmiä, kuten dendrogrammin visualisointia, kyynärpäämenetelmää ja silhuettimenetelmää.
Dendrogrammin visualisointi
Tässä menetelmässä tarkastellaan dendrogrammia visuaalisesti etsimällä suurimmat pystysuorat aukot, joita vaakasuorat viivat eivät leikkaa. Klustereiden määrä voidaan päätellä näiden aukkojen kattamien pystysuorien viivojen lukumäärästä. Tämä menetelmä on kuitenkin subjektiivinen ja perustuu vahvasti visuaaliseen tulkintaan.
Kyynärpäämenetelmä (within-cluster sum of squares - WCSS)
Tässä lähestymistavassa suoritetaan hierarkkinen klusterointi useilla eri klusterimäärillä ja lasketaan kullekin WCSS. Piirtämällä WCSS-arvot klusterimäärää vastaan voidaan tunnistaa kuvaajasta "kyynärpääkohta". Tämä kohta osoittaa hyvän tasapainon WCSS:n minimoinnin ja liiallisen klusterimäärän väliltä, samoin kuin K-means-menetelmässä.
Silhuettimenetelmä
Tässä menetelmässä lasketaan silhuettipisteet eri klusterimäärille leikkaamalla dendrogrammia eri korkeuksilta. Optimaalinen klusterimäärä on se, joka vastaa korkeinta keskimääräistä silhuettipistettä.
WCSS:n ja silhuettipisteiden laskeminen hierarkkisessa klusteroinnissa voi olla laskennallisesti raskasta, erityisesti suurilla aineistoilla.
Kun valitset klusterien määrää, myös ymmärryksesi datasta ja ratkaistavasta ongelmasta tulisi ohjata valintaasi.
Kiitos palautteestasi!