Oppiskele Toteutus Oikealla Tietoaineistolla

Pyyhkäise näyttääksesi valikon

Harjoiteltuasi K-means-menetelmää keinotekoisella datalla voit nyt soveltaa sitä todelliseen aineistoon: wine dataset. Todelliset aineistot sisältävät haasteita, kuten epäselvät klusterirakenteet ja vaihtelevat piirreasteikot, mikä tekee klusteroinnista käytännöllisemmän haasteen.

Käytät datasets.load_wine() -funktiota aineiston lataamiseen. Wine dataset sisältää erilaisia viinien ominaisuuksia. Tavoitteena on selvittää, pystyykö K-means löytämään klustereita, jotka heijastavat viinien samankaltaisuuksia näiden ominaisuuksien perusteella.

Todellinen data vaatii usein esikäsittelyä. Piirteiden skaalaus voi olla tarpeen, jotta kaikki piirteet vaikuttavat tasapuolisesti etäisyyksien laskentaan K-meansissa.

Optimaalisen klustereiden määrän löytämiseksi käytät jälleen:

WSS-menetelmä: analysoi elbow-kuvaajaa eri K-arvoilla. Elbow-kohta voi olla vähemmän selkeä todellisessa datassa;
Silhouette score -menetelmä: tarkastele Silhouette-kuvaajaa ja keskiarvopisteitä parhaan K:n löytämiseksi. Pisteet voivat vaihdella enemmän kuin keinotekoisella datalla.

Visualisoinnit ovat avain tulosten ymmärtämiseen:

Kolmen valitun piirteen 3D-kuvaaja wine datasetista mahdollistaa datan jakauman visuaalisen tarkastelun pienennetyssä piirreavaruudessa, ilman ulottuvuuksien vähentämistä;
WSS-kuvaaja elbow-kohdan tunnistamiseen;
Silhouette-kuvaaja klusteroinnin laadun arviointiin.

K-means-klusterit visualisoituna wine-datan kolmen piirteen 3D-kuvaajassa, jossa näkyvät klusterien sijoittumiset tässä pienennetyssä piirreavaruudessa.

Oliko kaikki selvää?

Kiitos palautteestasi!

Osio 3. Luku 6

Kysy tekoälyä

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Osio 3. Luku 6