Optimaalisen Klusterimäärän Löytäminen Silhuettipisteen Avulla
Pyyhkäise näyttääksesi valikon
WSS-menetelmän lisäksi silhouette-pisteet ovat toinen hyödyllinen mittari optimaalisen klusterimäärän (K) määrittämiseen K-means-menetelmässä. Se arvioi, kuinka hyvin kukin datapiste sopii omaan klusteriinsa verrattuna muihin.
Jokaiselle datapisteelle silhouette-piste ottaa huomioon:
-
Koheesio (a): keskimääräinen etäisyys oman klusterin pisteisiin;
-
Erottuvuus (b): keskimääräinen etäisyys lähimmän muun klusterin pisteisiin.
Silhouette-piste lasketaan kaavalla: (b - a) / max(a, b), ja se vaihtelee välillä -1 – +1.
Pisteiden tulkinta:
-
+1: piste on hyvin klusteroitu;
-
~0: piste on klusterin rajalla;
-
-1: piste voi olla väärin luokiteltu.
Vaiheet optimaalisen K:n löytämiseksi silhuettipisteytyksen avulla ovat seuraavat:
-
Suorita K-means eri K-arvoilla (esim. K=2:sta järkevään ylärajaan asti);
-
Laske jokaiselle K:lle keskimääräinen silhuettipisteytys;
-
Piirrä keskimääräinen silhuettipisteytys vs. K (silhuettikuvaaja);
-
Valitse K, jolla on korkein keskimääräinen silhuettipisteytys.
Silhuettikuvaajan tarkastelu, joka näyttää pisteiden pisteytykset, voi tarjota syvällisempää tietoa klusterien johdonmukaisuudesta. Korkeat keskimääräiset pisteet ja tasaiset pisteet eri havaintojen välillä ovat toivottavia.
Yhteenvetona, kun WSS minimoi klusterin sisäisiä etäisyyksiä, silhuettipisteytys tasapainottaa koheesiota ja erottuvuutta. Molempien käyttäminen tarjoaa vankemman lähestymistavan optimaalisen K:n löytämiseen.
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme