Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Toteutus Oikealla Tietoaineistolla | Osio
Ohjaamattoman Oppimisen Perusteet

bookToteutus Oikealla Tietoaineistolla

Harjoiteltuasi K-means-menetelmää keinotekoisella datalla voit nyt soveltaa sitä todelliseen aineistoon: wine dataset. Todelliset aineistot sisältävät haasteita, kuten epäselvät klusterirakenteet ja vaihtelevat piirteiden mittakaavat, mikä tekee klusteroinnista käytännöllisemmän haasteen.

Käytät datasets.load_wine()-funktiota aineiston lataamiseen. Wine dataset sisältää erilaisia viinien ominaisuuksia. Tavoitteena on selvittää, pystyykö K-means löytämään klustereita, jotka heijastavat viinien samankaltaisuuksia näiden ominaisuuksien perusteella.

Todellinen data vaatii usein esikäsittelyä. Piirteiden skaalaus voi olla tarpeen, jotta kaikki piirteet vaikuttavat yhtä paljon etäisyyksien laskentaan K-meansissa.

Optimaalisen klusterimäärän löytämiseksi käytät jälleen:

  • WSS-menetelmä: analysoi elbow-kuvaajaa eri K-arvoilla. Elbow-kohta voi olla vähemmän selkeä todellisessa datassa;

  • Silhouette score -menetelmä: tarkastele Silhouette-kuvaajaa ja keskiarvopisteitä parhaan K:n löytämiseksi. Pisteet voivat vaihdella enemmän kuin keinotekoisella datalla.

Visualisoinnit ovat avain tulosten ymmärtämiseen:

  • Piirtämällä 3 valittua ominaisuutta 3D-kuvaajaan viiniaineistosta voidaan tarkastella datan jakaumaa pienennetyssä piirreavaruudessa, ilman dimensioiden vähennystä;

  • WSS-kuvaaja elbow-kohdan tunnistamiseen;

  • Silhouette-kuvaaja klusteroinnin laadun arviointiin.

K-means-klusterit visualisoituna viiniaineiston 3 piirteen 3D-kuvaajassa, jossa näkyvät klusterien sijoittumiset tässä pienennetyssä piirreavaruudessa.

question mark

Miksi piirteiden skaalaus tehdään ennen K-means-klusterointia viiniaineistolle?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 1. Luku 12

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

bookToteutus Oikealla Tietoaineistolla

Pyyhkäise näyttääksesi valikon

Harjoiteltuasi K-means-menetelmää keinotekoisella datalla voit nyt soveltaa sitä todelliseen aineistoon: wine dataset. Todelliset aineistot sisältävät haasteita, kuten epäselvät klusterirakenteet ja vaihtelevat piirteiden mittakaavat, mikä tekee klusteroinnista käytännöllisemmän haasteen.

Käytät datasets.load_wine()-funktiota aineiston lataamiseen. Wine dataset sisältää erilaisia viinien ominaisuuksia. Tavoitteena on selvittää, pystyykö K-means löytämään klustereita, jotka heijastavat viinien samankaltaisuuksia näiden ominaisuuksien perusteella.

Todellinen data vaatii usein esikäsittelyä. Piirteiden skaalaus voi olla tarpeen, jotta kaikki piirteet vaikuttavat yhtä paljon etäisyyksien laskentaan K-meansissa.

Optimaalisen klusterimäärän löytämiseksi käytät jälleen:

  • WSS-menetelmä: analysoi elbow-kuvaajaa eri K-arvoilla. Elbow-kohta voi olla vähemmän selkeä todellisessa datassa;

  • Silhouette score -menetelmä: tarkastele Silhouette-kuvaajaa ja keskiarvopisteitä parhaan K:n löytämiseksi. Pisteet voivat vaihdella enemmän kuin keinotekoisella datalla.

Visualisoinnit ovat avain tulosten ymmärtämiseen:

  • Piirtämällä 3 valittua ominaisuutta 3D-kuvaajaan viiniaineistosta voidaan tarkastella datan jakaumaa pienennetyssä piirreavaruudessa, ilman dimensioiden vähennystä;

  • WSS-kuvaaja elbow-kohdan tunnistamiseen;

  • Silhouette-kuvaaja klusteroinnin laadun arviointiin.

K-means-klusterit visualisoituna viiniaineiston 3 piirteen 3D-kuvaajassa, jossa näkyvät klusterien sijoittumiset tässä pienennetyssä piirreavaruudessa.

question mark

Miksi piirteiden skaalaus tehdään ennen K-means-klusterointia viiniaineistolle?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 1. Luku 12
some-alt