Optimimäärän Klustereiden Löytäminen Siluettipisteytyksen Avulla
Pyyhkäise näyttääksesi valikon
WSS-menetelmän lisäksi silhouette-pisteytys on toinen arvokas mittari optimaalisen klusterimäärän (K) määrittämiseen K-means-menetelmässä. Se arvioi, kuinka hyvin kukin datapiste sopii omaan klusteriinsa verrattuna muihin.
Jokaiselle datapisteelle silhouette-pisteytys ottaa huomioon:
-
Koheesio (a): keskimääräinen etäisyys oman klusterin pisteisiin;
-
Erottuvuus (b): keskimääräinen etäisyys lähimmän muun klusterin pisteisiin.
Silhouette-pisteytys lasketaan kaavalla: (b - a) / max(a, b), ja se vaihtelee välillä -1–+1.
Pisteytyksen tulkinta:
-
+1: piste on hyvin klusteroitu;
-
~0: piste on klusterin rajalla;
-
-1: piste voi olla väärin luokiteltu.
Vaiheet optimaalisen K:n löytämiseksi silhouette-pisteytyksen avulla ovat seuraavat:
-
Suorita K-means useilla K-arvoilla (esim. K=2 tiettyyn rajaan asti);
-
Laske jokaiselle K:lle keskimääräinen silhouette-pisteytys;
-
Piirrä keskimääräinen silhouette-pisteytys vs. K (silhouette-kuvaaja);
-
Valitse K, jolla on korkein keskimääräinen silhouette-pisteytys.
Silhouette-kuvaajan tarkastelu, joka näyttää pisteiden pisteytykset, voi tarjota syvempää tietoa klusterien johdonmukaisuudesta. Korkeammat keskiarvot ja tasaiset pisteytykset pisteiden välillä ovat toivottavia.
Yhteenvetona: kun WSS minimoi klusterin sisäiset etäisyydet, silhouette-pisteytys tasapainottaa koheesiota ja erottuvuutta. Molempien käyttäminen tarjoaa vankemman lähestymistavan optimaalisen K:n löytämiseen.
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme