Toteutus Oikealla Tietoaineistolla
Harjoiteltuasi K-means-menetelmää keinotekoisella datalla, voit nyt soveltaa sitä oikeaan aineistoon: wine dataset -viinidataan. Oikeat aineistot sisältävät haasteita, kuten epäselvät klusterirakenteet ja vaihtelevat piirteiden mittakaavat, mikä tekee klusteroinnista käytännöllisemmän haasteen.
Käytät datasets.load_wine()
-funktiota aineiston lataamiseen. Wine dataset sisältää useita eri viinien ominaisuuksia. Tavoitteena on selvittää, pystyykö K-means löytämään klustereita, jotka heijastavat viinien samankaltaisuuksia näiden ominaisuuksien perusteella.
Oikea data vaatii usein esikäsittelyä. Piirteiden skaalaus voi olla tarpeen, jotta kaikki piirteet vaikuttavat tasapuolisesti etäisyyksien laskentaan K-meansissa.
Optimaalisen klustereiden määrän löytämiseksi käytät jälleen:
-
WSS-menetelmää: analysoi elbow-kuvaajaa eri K-arvoilla. Elbow-kohta voi olla vähemmän selkeä oikeassa datassa;
-
Silhouette score -menetelmää: tarkastele Silhouette-kuvaajaa ja keskiarvopisteitä parhaan K:n löytämiseksi. Pisteet voivat vaihdella enemmän kuin keinotekoisella datalla.
Visualisoinnit ovat avain tulosten ymmärtämiseen:
-
Kolmen valitun piirteen 3D-kuvaaja viinidatasta mahdollistaa aineiston jakauman tarkastelun pienennetyssä piirreavaruudessa, ilman dimensioiden vähennystä;
-
WSS-kuvaaja elbow-kohdan tunnistamiseen;
-
Silhouette-kuvaaja klusteroinnin laadun arviointiin.
K-means-klusterit visualisoituna viinidatan kolmen piirteen 3D-kuvaajassa, jossa näkyvät klusterien sijoittuminen tässä pienennetyssä piirreavaruudessa.
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
Awesome!
Completion rate improved to 2.94
Toteutus Oikealla Tietoaineistolla
Pyyhkäise näyttääksesi valikon
Harjoiteltuasi K-means-menetelmää keinotekoisella datalla, voit nyt soveltaa sitä oikeaan aineistoon: wine dataset -viinidataan. Oikeat aineistot sisältävät haasteita, kuten epäselvät klusterirakenteet ja vaihtelevat piirteiden mittakaavat, mikä tekee klusteroinnista käytännöllisemmän haasteen.
Käytät datasets.load_wine()
-funktiota aineiston lataamiseen. Wine dataset sisältää useita eri viinien ominaisuuksia. Tavoitteena on selvittää, pystyykö K-means löytämään klustereita, jotka heijastavat viinien samankaltaisuuksia näiden ominaisuuksien perusteella.
Oikea data vaatii usein esikäsittelyä. Piirteiden skaalaus voi olla tarpeen, jotta kaikki piirteet vaikuttavat tasapuolisesti etäisyyksien laskentaan K-meansissa.
Optimaalisen klustereiden määrän löytämiseksi käytät jälleen:
-
WSS-menetelmää: analysoi elbow-kuvaajaa eri K-arvoilla. Elbow-kohta voi olla vähemmän selkeä oikeassa datassa;
-
Silhouette score -menetelmää: tarkastele Silhouette-kuvaajaa ja keskiarvopisteitä parhaan K:n löytämiseksi. Pisteet voivat vaihdella enemmän kuin keinotekoisella datalla.
Visualisoinnit ovat avain tulosten ymmärtämiseen:
-
Kolmen valitun piirteen 3D-kuvaaja viinidatasta mahdollistaa aineiston jakauman tarkastelun pienennetyssä piirreavaruudessa, ilman dimensioiden vähennystä;
-
WSS-kuvaaja elbow-kohdan tunnistamiseen;
-
Silhouette-kuvaaja klusteroinnin laadun arviointiin.
K-means-klusterit visualisoituna viinidatan kolmen piirteen 3D-kuvaajassa, jossa näkyvät klusterien sijoittuminen tässä pienennetyssä piirreavaruudessa.
Kiitos palautteestasi!