Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Optimaalisen Klusterimäärän Löytäminen WSS-menetelmällä | K-Means
Klusterianalyysi Pythonilla

Optimaalisen Klusterimäärän Löytäminen WSS-menetelmällä

Pyyhkäise näyttääksesi valikon

K-means-klusteroinnissa optimaalisen klusterimäärän, K:n, määrittäminen on keskeinen päätös. Oikean K:n valinta on olennaista, jotta datasta voidaan löytää merkityksellisiä rakenteita. Liian vähäinen klusterimäärä voi yksinkertaistaa dataa liikaa, kun taas liian suuri määrä voi johtaa liian yksityiskohtaisiin ja vähemmän hyödyllisiin klustereihin. Siksi K:n valintaa tukevat menetelmät ovat tärkeitä.

Yksi suosittu menetelmä optimaalisen K:n löytämiseksi on within-sum-of-squares (WSS) -mittari. WSS mittaa kunkin datapisteen ja sille osoitetun klusterin keskipisteen välisen etäisyyden neliöiden summan. Käytännössä WSS ilmaisee, kuinka tiiviitä klusterit ovat. Pienemmät WSS-arvot viittaavat tiiviimpiin, yhtenäisempiin klustereihin.

Eri määrä klustereita

WSS:n avulla optimaalisen K:n löytämiseksi noudatetaan yleensä seuraavia vaiheita:

Suorita K-means useilla K-arvoilla
expand arrow
  • Kokeile K-arvoja yhdestä kohtuulliseen ylärajaan, kuten 10 tai 15;
Laske WSS jokaiselle K-arvolle
expand arrow
  • Laske Within-Cluster Sum of Squares (WSS) jokaiselle K-arvolle;
Piirrä WSS K:n funktiona
expand arrow
  • Laadi kuvaaja, jossa K-arvot ovat x-akselilla ja WSS y-akselilla;
  • Tätä kutsutaan WSS-kuvaajaksi tai elbow plotiksi;
Etsi kyynärpääkohta
expand arrow
  • Etsi kohta, jossa WSS-käyrä taittuu, muodostaen "kyynärpään";
  • Tämä kohta viittaa optimaaliseen klustereiden määrään.
Note
Huomio

Kyynärpääkohta WSS-kuvaajassa on olennainen. Se edustaa kohtaa, jonka jälkeen WSS:n pieneneminen alkaa hidastua merkittävästi.

Tätä kyynärpäätä pidetään usein vahvana osoituksena optimaalisen K:n valinnalle seuraavista syistä:

  • Se viittaa väheneviin hyötyihin: useampien klustereiden lisääminen kyynärpään jälkeen ei johda merkittävään parannukseen WSS-arvossa, eli klusterit eivät enää tiivisty huomattavasti;

  • Se tasapainottaa yksityiskohtaisuuden ja yksinkertaisuuden: kyynärpää edustaa usein hyvää tasapainoa datan olennaisen rakenteen tunnistamisen ja ylisovittamisen tai tarpeettoman hienojakoisten klustereiden muodostamisen välillä.

Kyynärpäämenetelmä

On hyvä muistaa, että kyynärpäämenetelmä on heuristinen. Kyynärpään kohta ei aina ole selkeästi määriteltävissä, ja muut tekijät voivat vaikuttaa lopulliseen K:n valintaan. Tulosten visuaalinen tarkastelu ja aihealueen tuntemus ovat hyödyllisiä lisäkeinoja kyynärpäämenetelmän rinnalla.

question mark

Kun käytetään WSS-menetelmää klusterien määrän valintaan K-means-menetelmässä, mitä WSS-kuvaajan kyynärpääkohta tyypillisesti edustaa?

Valitse oikea vastaus

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 3. Luku 3

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Osio 3. Luku 3
some-alt