Optimaalisen Klusterimäärän Löytäminen Siluettipisteytyksen Avulla
Pyyhkäise näyttääksesi valikon
WSS-menetelmän lisäksi silhuettipisteet ovat toinen hyödyllinen mittari optimaalisen klusterimäärän (K) määrittämiseen K-means-menetelmässä. Silhuettipiste arvioi, kuinka hyvin kukin datapiste sopii omaan klusteriinsa verrattuna muihin.
Jokaiselle datapisteelle silhuettipiste ottaa huomioon:
-
Koheesio (a): keskimääräinen etäisyys oman klusterin pisteisiin;
-
Erottuvuus (b): keskimääräinen etäisyys lähimmän muun klusterin pisteisiin.
Silhuettipiste lasketaan kaavalla: (b - a) / max(a, b), ja se vaihtelee välillä -1–+1.
Pisteiden tulkinta:
-
+1: piste on hyvin klusteroitu;
-
~0: piste on klusterin rajalla;
-
-1: piste voi olla väärin luokiteltu.
Vaiheet optimaalisen K:n löytämiseksi silhuettipisteen avulla:
-
Suorita K-means useilla K-arvoilla (esim. K=2 tiettyyn rajaan asti);
-
Laske jokaiselle K:lle keskimääräinen silhuettipiste;
-
Piirrä keskimääräinen silhuettipiste vs. K (silhuettikuvaaja);
-
Valitse K, jolla on korkein keskimääräinen silhuettipiste.
Silhuettikuvaajan tarkastelu, joka näyttää pisteiden pisteet, voi antaa syvempää tietoa klusterien johdonmukaisuudesta. Korkeat keskimääräiset pisteet ja tasaiset pisteet pisteiden välillä ovat toivottavia.
Yhteenvetona: WSS minimoi klusterin sisäiset etäisyydet, kun taas silhuettipiste tasapainottaa koheesiota ja erottuvuutta. Molempien käyttäminen tarjoaa vankemman lähestymistavan optimaalisen K:n löytämiseen.
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme