Scorri per mostrare il menu

Dopo aver esercitato K-means su dati fittizi, puoi ora applicarlo a un dataset reale: il wine dataset. I dataset reali presentano complessità come strutture di cluster poco chiare e scale delle caratteristiche variabili, offrendo una sfida di clustering più pratica.

Utilizzerai la funzione datasets.load_wine() per caricare questo dataset. Il wine dataset contiene vari attributi di diversi vini. L'obiettivo è verificare se K-means riesce a individuare cluster che riflettano le somiglianze tra i vini in base a questi attributi.

I dati reali spesso richiedono una fase di preprocessing. Potrebbe essere necessario applicare la scalatura delle caratteristiche per garantire che tutte le feature contribuiscano in modo equo al calcolo delle distanze in K-means.

Per trovare il numero ottimale di cluster, utilizzerai nuovamente:

Metodo WSS: analisi dell'elbow plot per un intervallo di valori di K. Gli "elbow" potrebbero essere meno evidenti nei dati reali;
Metodo del Silhouette score: esame del Silhouette plot e dei punteggi medi per trovare il miglior K. I punteggi possono essere più variabili rispetto ai dati fittizi.

Le visualizzazioni sono fondamentali per comprendere i risultati:

La rappresentazione di 3 feature selezionate in un grafico 3D del wine dataset permette di ispezionare visivamente la distribuzione dei dati in uno spazio delle feature ridotto, senza utilizzare tecniche di riduzione della dimensionalità;
Grafico WSS per l'identificazione dell'elbow;
Grafico Silhouette per la qualità dei cluster.

Cluster K-means visualizzati sul grafico 3D a 3 feature dei dati wine, mostrando l'assegnazione dei cluster in questo spazio delle feature ridotto.

Tutto è chiaro?

Grazie per i tuoi commenti!

Sezione 3. Capitolo 6

Chieda ad AI

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Implementazione su un Dataset Reale