Determinazione del Numero Ottimale di Cluster Utilizzando WSS
Scorri per mostrare il menu
Nel clustering K-means, determinare il numero ottimale di cluster, K, è una decisione fondamentale. Scegliere il K corretto è essenziale per individuare schemi significativi nei dati. Troppi pochi cluster potrebbero semplificare eccessivamente i dati, mentre troppi potrebbero creare cluster troppo specifici e meno utili. Pertanto, sono importanti i metodi che guidano la scelta di K.
Una tecnica molto diffusa per trovare il K ottimale è la metrica within-sum-of-squares (WSS). WSS misura la somma delle distanze al quadrato tra ciascun punto dati e il proprio centroide assegnato all'interno di un cluster. In sostanza, WSS indica quanto sono compatti i cluster. Valori WSS più bassi suggeriscono cluster più stretti e compatti.
Per utilizzare il WSS per trovare il K ottimale, solitamente si seguono questi passaggi:
- Provare valori di K da 1 fino a un limite ragionevole come 10 o 15;
- Calcolare la Within-Cluster Sum of Squares (WSS) per ogni valore di K;
- Creare un grafico con i valori di K sull'asse x e il WSS sull'asse y;
- Questo è chiamato grafico WSS o elbow plot;
- Cercare un punto in cui la curva WSS si piega, formando un gomito;
- Questo punto suggerisce il numero ottimale di cluster.
Il punto di gomito nel grafico WSS è fondamentale. Rappresenta il punto dopo il quale la diminuzione del WSS inizia a rallentare significativamente.
Questo "gomito" è spesso considerato un forte indicatore del valore ottimale di K per i seguenti motivi:
-
Indica rendimenti decrescenti: aggiungere ulteriori cluster oltre il gomito non porta a un miglioramento sostanziale del WSS, il che significa che i cluster non diventano significativamente più compatti;
-
Bilancia granularità e semplicità: il gomito rappresenta spesso un buon compromesso tra la cattura della struttura essenziale nei dati senza overfitting o la creazione di cluster inutilmente troppo dettagliati.
Ricorda che il metodo del gomito è una euristica. Il punto di gomito potrebbe non essere sempre ben definito e altri fattori potrebbero influenzare la scelta finale di K. L'ispezione visiva dei cluster risultanti e le tue conoscenze di dominio sono elementi preziosi da affiancare al metodo del gomito.
Grazie per i tuoi commenti!
Chieda ad AI
Chieda ad AI
Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione