Implementazione su un Dataset Reale
Dopo aver esercitato K-means su dati fittizi, puoi ora applicarlo a un dataset reale: il wine dataset. I dataset reali presentano complessità come strutture di cluster poco chiare e scale delle caratteristiche variabili, offrendo una sfida di clustering più pratica.
Utilizzerai la funzione datasets.load_wine()
per caricare questo dataset. Il wine dataset contiene vari attributi di diversi vini. Il nostro obiettivo è verificare se K-means riesce a individuare cluster che riflettano le somiglianze tra i vini in base a questi attributi.
I dati reali spesso richiedono una fase di preprocessing. Potrebbe essere necessario applicare la scalatura delle caratteristiche per garantire che tutte le feature contribuiscano in modo equo al calcolo delle distanze in K-means.
Per trovare il numero ottimale di cluster, utilizzerai nuovamente:
-
Metodo WSS: analisi del grafico "elbow" per un intervallo di valori di K. Gli "elbow" potrebbero essere meno evidenti nei dati reali;
-
Metodo del Silhouette score: esame del grafico delle silhouette e dei punteggi medi per individuare il miglior K. I punteggi potrebbero essere più variabili rispetto ai dati fittizi.
Le visualizzazioni sono fondamentali per comprendere i risultati:
-
La rappresentazione di 3 feature selezionate in un grafico 3D del wine dataset consente di ispezionare visivamente la distribuzione dei dati in uno spazio delle feature ridotto, senza utilizzare tecniche di riduzione della dimensionalità;
-
Grafico WSS per l'identificazione dell'elbow;
-
Grafico delle silhouette per la qualità dei cluster.
I cluster K-means visualizzati sul grafico 3D a 3 feature dei dati wine, mostrano l'assegnazione dei cluster all'interno di questo spazio delle feature ridotto.
Grazie per i tuoi commenti!
Chieda ad AI
Chieda ad AI
Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione
Awesome!
Completion rate improved to 2.94
Implementazione su un Dataset Reale
Scorri per mostrare il menu
Dopo aver esercitato K-means su dati fittizi, puoi ora applicarlo a un dataset reale: il wine dataset. I dataset reali presentano complessità come strutture di cluster poco chiare e scale delle caratteristiche variabili, offrendo una sfida di clustering più pratica.
Utilizzerai la funzione datasets.load_wine()
per caricare questo dataset. Il wine dataset contiene vari attributi di diversi vini. Il nostro obiettivo è verificare se K-means riesce a individuare cluster che riflettano le somiglianze tra i vini in base a questi attributi.
I dati reali spesso richiedono una fase di preprocessing. Potrebbe essere necessario applicare la scalatura delle caratteristiche per garantire che tutte le feature contribuiscano in modo equo al calcolo delle distanze in K-means.
Per trovare il numero ottimale di cluster, utilizzerai nuovamente:
-
Metodo WSS: analisi del grafico "elbow" per un intervallo di valori di K. Gli "elbow" potrebbero essere meno evidenti nei dati reali;
-
Metodo del Silhouette score: esame del grafico delle silhouette e dei punteggi medi per individuare il miglior K. I punteggi potrebbero essere più variabili rispetto ai dati fittizi.
Le visualizzazioni sono fondamentali per comprendere i risultati:
-
La rappresentazione di 3 feature selezionate in un grafico 3D del wine dataset consente di ispezionare visivamente la distribuzione dei dati in uno spazio delle feature ridotto, senza utilizzare tecniche di riduzione della dimensionalità;
-
Grafico WSS per l'identificazione dell'elbow;
-
Grafico delle silhouette per la qualità dei cluster.
I cluster K-means visualizzati sul grafico 3D a 3 feature dei dati wine, mostrano l'assegnazione dei cluster all'interno di questo spazio delle feature ridotto.
Grazie per i tuoi commenti!