Kuinka Hierarkkinen Klusterointi Toimii?
Hierarkkinen klusterointi on klusterianalyysin menetelmä, joka pyrkii rakentamaan klustereiden hierarkian. Toisin kuin K-means, se ei vaadi klustereiden määrän määrittämistä etukäteen.
Algoritmi voi joko aloittaa jokainen piste omassa klusterissaan ja yhdistää niitä vähitellen (agglomeraatiivinen klusterointi), tai aloittaa kaikki pisteet yhdessä klusterissa ja jakaa niitä toistuvasti pienempiin klustereihin (divisiivinen klusterointi).
Koska agglomeraatiivinen klusterointi on yleisimmin käytetty lähestymistapa, keskitymme siihen.
Yleisin hierarkkisen klusteroinnin tyyppi on alhaalta ylöspäin -lähestymistapa. Algoritmi etenee seuraavasti:
-
Alustus: jokainen havaintopiste käsitellään omana klusterinaan;
-
Läheisyysmatriisin laskeminen: lasketaan etäisyys jokaisen klusteriparin välillä;
-
Klusterien yhdistäminen: kaksi lähintä klusteria yhdistetään yhdeksi klusteriksi;
-
Läheisyysmatriisin päivitys: lasketaan uudelleen etäisyydet uuden klusterin ja kaikkien jäljellä olevien klusterien välillä;
-
Toisto: vaiheet 3 ja 4 toistetaan, kunnes kaikki havaintopisteet on yhdistetty yhdeksi klusteriksi.
Linkage-tyypit
Kahden klusterin välinen läheisyys määritellään linkage-tyypin perusteella. Yleisiä hierarkkisessa klusteroinnissa käytettyjä linkage-menetelmiä ovat:
-
Single linkage: etäisyys kahden klusterin lähimpien pisteiden välillä;
-
Complete linkage: etäisyys kahden klusterin kauimpien pisteiden välillä;
-
Average linkage: kaikkien kahden klusterin pisteparien keskimääräinen etäisyys;
-
Wardin menetelmä: minimoi klusterin sisäisen varianssin kasvun yhdistettäessä kahta klusteria.
Linkage-menetelmän valinta voi vaikuttaa muodostuvien klusterien muotoon ja rakenteeseen. Kokeilu ja alakohtainen asiantuntemus auttavat usein parhaan menetelmän valinnassa aineistolle.
Dendrogrammi
Hierarkkisen klusteroinnin tulokset esitetään usein dendrogrammin avulla.
Dendrogrammi on puumainen kaavio, joka havainnollistaa klustereiden hierarkkista suhdetta. Dendrogrammin haarojen korkeus kuvaa klustereiden välistä etäisyyttä.
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
Can you explain more about how to interpret a dendrogram?
What are the advantages and disadvantages of hierarchical clustering?
How do I choose the best linkage method for my data?
Awesome!
Completion rate improved to 2.94
Kuinka Hierarkkinen Klusterointi Toimii?
Pyyhkäise näyttääksesi valikon
Hierarkkinen klusterointi on klusterianalyysin menetelmä, joka pyrkii rakentamaan klustereiden hierarkian. Toisin kuin K-means, se ei vaadi klustereiden määrän määrittämistä etukäteen.
Algoritmi voi joko aloittaa jokainen piste omassa klusterissaan ja yhdistää niitä vähitellen (agglomeraatiivinen klusterointi), tai aloittaa kaikki pisteet yhdessä klusterissa ja jakaa niitä toistuvasti pienempiin klustereihin (divisiivinen klusterointi).
Koska agglomeraatiivinen klusterointi on yleisimmin käytetty lähestymistapa, keskitymme siihen.
Yleisin hierarkkisen klusteroinnin tyyppi on alhaalta ylöspäin -lähestymistapa. Algoritmi etenee seuraavasti:
-
Alustus: jokainen havaintopiste käsitellään omana klusterinaan;
-
Läheisyysmatriisin laskeminen: lasketaan etäisyys jokaisen klusteriparin välillä;
-
Klusterien yhdistäminen: kaksi lähintä klusteria yhdistetään yhdeksi klusteriksi;
-
Läheisyysmatriisin päivitys: lasketaan uudelleen etäisyydet uuden klusterin ja kaikkien jäljellä olevien klusterien välillä;
-
Toisto: vaiheet 3 ja 4 toistetaan, kunnes kaikki havaintopisteet on yhdistetty yhdeksi klusteriksi.
Linkage-tyypit
Kahden klusterin välinen läheisyys määritellään linkage-tyypin perusteella. Yleisiä hierarkkisessa klusteroinnissa käytettyjä linkage-menetelmiä ovat:
-
Single linkage: etäisyys kahden klusterin lähimpien pisteiden välillä;
-
Complete linkage: etäisyys kahden klusterin kauimpien pisteiden välillä;
-
Average linkage: kaikkien kahden klusterin pisteparien keskimääräinen etäisyys;
-
Wardin menetelmä: minimoi klusterin sisäisen varianssin kasvun yhdistettäessä kahta klusteria.
Linkage-menetelmän valinta voi vaikuttaa muodostuvien klusterien muotoon ja rakenteeseen. Kokeilu ja alakohtainen asiantuntemus auttavat usein parhaan menetelmän valinnassa aineistolle.
Dendrogrammi
Hierarkkisen klusteroinnin tulokset esitetään usein dendrogrammin avulla.
Dendrogrammi on puumainen kaavio, joka havainnollistaa klustereiden hierarkkista suhdetta. Dendrogrammin haarojen korkeus kuvaa klustereiden välistä etäisyyttä.
Kiitos palautteestasi!