Toteutus Oikealla Tietoaineistolla
Pyyhkäise näyttääksesi valikon
Harjoiteltuasi K-means-menetelmää keinotekoisella datalla, voit nyt soveltaa sitä todelliseen aineistoon: wine dataset. Todelliset aineistot sisältävät haasteita, kuten epäselvät klusterirakenteet ja vaihtelevat piirteiden mittakaavat, mikä tekee klusteroinnista käytännöllisemmän haasteen.
Käytät datasets.load_wine()-funktiota aineiston lataamiseen. Wine dataset sisältää erilaisia viinien ominaisuuksia. Tavoitteena on selvittää, pystyykö K-means löytämään klustereita, jotka heijastavat viinien samankaltaisuuksia näiden ominaisuuksien perusteella.
Todellinen data vaatii usein esikäsittelyä. Piirteiden skaalaus voi olla tarpeen, jotta kaikki piirteet vaikuttavat tasapuolisesti etäisyyksien laskentaan K-meansissa.
Optimaalisen klustereiden määrän löytämiseksi käytät jälleen:
-
WSS-menetelmä: analysoi elbow-kuvaajaa eri K-arvoilla. Elbow-kohta voi olla vähemmän selkeä todellisessa datassa;
-
Silhouette score -menetelmä: tarkastele Silhouette-kuvaajaa ja keskiarvopisteitä parhaan K:n löytämiseksi. Pisteet voivat vaihdella enemmän kuin keinotekoisella datalla.
Visualisoinnit ovat avain tulosten ymmärtämiseen:
-
Piirtämällä 3 valittua ominaisuutta 3D-kuvaajaan viiniaineistosta voidaan tarkastella datan jakaumaa pienennetyssä piirreavaruudessa, ilman dimensioiden vähennystä;
-
WSS-kuvaaja elbow-kohdan tunnistamiseen;
-
Silhouette-kuvaaja klusteroinnin laadun arviointiin.
K-means-klusterit visualisoituna viiniaineiston 3 ominaisuuden 3D-kuvaajassa, jossa näkyvät klusterien sijoittumiset tässä pienennetyssä piirreavaruudessa.
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme