Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Toteutus Oikealla Tietoaineistolla | K-Means
Klusterianalyysi

bookToteutus Oikealla Tietoaineistolla

Harjoiteltuasi K-means-menetelmää keinotekoisella datalla, voit nyt soveltaa sitä oikeaan aineistoon: wine dataset -viinidataan. Oikeat aineistot sisältävät haasteita, kuten epäselvät klusterirakenteet ja vaihtelevat piirteiden mittakaavat, mikä tekee klusteroinnista käytännöllisemmän haasteen.

Käytät datasets.load_wine() -funktiota aineiston lataamiseen. Wine dataset sisältää useita eri viinien ominaisuuksia. Tavoitteena on selvittää, pystyykö K-means löytämään klustereita, jotka heijastavat viinien samankaltaisuuksia näiden ominaisuuksien perusteella.

Oikea data vaatii usein esikäsittelyä. Piirteiden skaalaus voi olla tarpeen, jotta kaikki piirteet vaikuttavat tasapuolisesti etäisyyksien laskentaan K-meansissa.

Optimaalisen klustereiden määrän löytämiseksi käytät jälleen:

  • WSS-menetelmää: analysoi elbow-kuvaajaa eri K-arvoilla. Elbow-kohta voi olla vähemmän selkeä oikeassa datassa;

  • Silhouette score -menetelmää: tarkastele Silhouette-kuvaajaa ja keskiarvopisteitä parhaan K:n löytämiseksi. Pisteet voivat vaihdella enemmän kuin keinotekoisella datalla.

Visualisoinnit ovat avain tulosten ymmärtämiseen:

  • Kolmen valitun piirteen 3D-kuvaaja viinidatasta mahdollistaa aineiston jakauman tarkastelun pienennetyssä piirreavaruudessa, ilman dimensioiden vähennystä;

  • WSS-kuvaaja elbow-kohdan tunnistamiseen;

  • Silhouette-kuvaaja klusteroinnin laadun arviointiin.

K-means-klusterit visualisoituna viinidatan kolmen piirteen 3D-kuvaajassa, jossa näkyvät klusterien sijoittuminen tässä pienennetyssä piirreavaruudessa.

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 3. Luku 6

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Awesome!

Completion rate improved to 2.94

bookToteutus Oikealla Tietoaineistolla

Pyyhkäise näyttääksesi valikon

Harjoiteltuasi K-means-menetelmää keinotekoisella datalla, voit nyt soveltaa sitä oikeaan aineistoon: wine dataset -viinidataan. Oikeat aineistot sisältävät haasteita, kuten epäselvät klusterirakenteet ja vaihtelevat piirteiden mittakaavat, mikä tekee klusteroinnista käytännöllisemmän haasteen.

Käytät datasets.load_wine() -funktiota aineiston lataamiseen. Wine dataset sisältää useita eri viinien ominaisuuksia. Tavoitteena on selvittää, pystyykö K-means löytämään klustereita, jotka heijastavat viinien samankaltaisuuksia näiden ominaisuuksien perusteella.

Oikea data vaatii usein esikäsittelyä. Piirteiden skaalaus voi olla tarpeen, jotta kaikki piirteet vaikuttavat tasapuolisesti etäisyyksien laskentaan K-meansissa.

Optimaalisen klustereiden määrän löytämiseksi käytät jälleen:

  • WSS-menetelmää: analysoi elbow-kuvaajaa eri K-arvoilla. Elbow-kohta voi olla vähemmän selkeä oikeassa datassa;

  • Silhouette score -menetelmää: tarkastele Silhouette-kuvaajaa ja keskiarvopisteitä parhaan K:n löytämiseksi. Pisteet voivat vaihdella enemmän kuin keinotekoisella datalla.

Visualisoinnit ovat avain tulosten ymmärtämiseen:

  • Kolmen valitun piirteen 3D-kuvaaja viinidatasta mahdollistaa aineiston jakauman tarkastelun pienennetyssä piirreavaruudessa, ilman dimensioiden vähennystä;

  • WSS-kuvaaja elbow-kohdan tunnistamiseen;

  • Silhouette-kuvaaja klusteroinnin laadun arviointiin.

K-means-klusterit visualisoituna viinidatan kolmen piirteen 3D-kuvaajassa, jossa näkyvät klusterien sijoittuminen tässä pienennetyssä piirreavaruudessa.

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 3. Luku 6
some-alt