Optimaalisen Klusterimäärän Löytäminen WSS-menetelmällä
Pyyhkäise näyttääksesi valikon
K-means-klusteroinnissa optimaalisen klusterimäärän, K:n, määrittäminen on keskeinen päätös. Oikean K:n valinta on olennaista, jotta datasta voidaan löytää merkityksellisiä rakenteita. Liian vähäinen klusterimäärä voi yksinkertaistaa dataa liikaa, kun taas liian suuri määrä voi johtaa liian yksityiskohtaisiin ja vähemmän hyödyllisiin klustereihin. Siksi K:n valintaa tukevat menetelmät ovat tärkeitä.
Yksi suosittu menetelmä optimaalisen K:n löytämiseksi on within-sum-of-squares (WSS) -mittari. WSS mittaa kunkin datapisteen ja sille osoitetun klusterin keskipisteen välisen etäisyyden neliöiden summan. Käytännössä WSS ilmaisee, kuinka tiiviitä klusterit ovat. Pienemmät WSS-arvot viittaavat tiiviimpiin, yhtenäisempiin klustereihin.
WSS:n avulla optimaalisen K:n löytämiseksi noudatetaan yleensä seuraavia vaiheita:
- Kokeile K-arvoja yhdestä kohtuulliseen ylärajaan, kuten 10 tai 15;
- Laske Within-Cluster Sum of Squares (WSS) jokaiselle K-arvolle;
- Laadi kuvaaja, jossa K-arvot ovat x-akselilla ja WSS y-akselilla;
- Tätä kutsutaan WSS-kuvaajaksi tai elbow plotiksi;
- Etsi kohta, jossa WSS-käyrä taittuu, muodostaen "kyynärpään";
- Tämä kohta viittaa optimaaliseen klustereiden määrään.
Kyynärpääkohta WSS-kuvaajassa on olennainen. Se edustaa kohtaa, jonka jälkeen WSS:n pieneneminen alkaa hidastua merkittävästi.
Tätä kyynärpäätä pidetään usein vahvana osoituksena optimaalisen K:n valinnalle seuraavista syistä:
-
Se viittaa väheneviin hyötyihin: useampien klustereiden lisääminen kyynärpään jälkeen ei johda merkittävään parannukseen WSS-arvossa, eli klusterit eivät enää tiivisty huomattavasti;
-
Se tasapainottaa yksityiskohtaisuuden ja yksinkertaisuuden: kyynärpää edustaa usein hyvää tasapainoa datan olennaisen rakenteen tunnistamisen ja ylisovittamisen tai tarpeettoman hienojakoisten klustereiden muodostamisen välillä.
On hyvä muistaa, että kyynärpäämenetelmä on heuristinen. Kyynärpään kohta ei aina ole selkeästi määriteltävissä, ja muut tekijät voivat vaikuttaa lopulliseen K:n valintaan. Tulosten visuaalinen tarkastelu ja aihealueen tuntemus ovat hyödyllisiä lisäkeinoja kyynärpäämenetelmän rinnalla.
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme