Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Impara Determinazione del Numero Ottimale di Cluster Utilizzando WSS | K-Means
Analisi dei Cluster con Python

Determinazione del Numero Ottimale di Cluster Utilizzando WSS

Scorri per mostrare il menu

Nel clustering K-means, determinare il numero ottimale di cluster, K, è una decisione fondamentale. Scegliere il K corretto è essenziale per individuare schemi significativi nei dati. Troppi pochi cluster potrebbero semplificare eccessivamente i dati, mentre troppi potrebbero creare cluster troppo specifici e meno utili. Pertanto, sono importanti i metodi che guidano la scelta di K.

Una tecnica molto diffusa per trovare il K ottimale è la metrica within-sum-of-squares (WSS). WSS misura la somma delle distanze al quadrato tra ciascun punto dati e il proprio centroide assegnato all'interno di un cluster. In sostanza, WSS indica quanto sono compatti i cluster. Valori WSS più bassi suggeriscono cluster più stretti e compatti.

Numero diverso di cluster

Per utilizzare il WSS per trovare il K ottimale, solitamente si seguono questi passaggi:

Esecuzione di K-means per una gamma di valori K
expand arrow
  • Provare valori di K da 1 fino a un limite ragionevole come 10 o 15;
Calcolo del WSS per ogni K
expand arrow
  • Calcolare la Within-Cluster Sum of Squares (WSS) per ogni valore di K;
Tracciamento del WSS in funzione di K
expand arrow
  • Creare un grafico con i valori di K sull'asse x e il WSS sull'asse y;
  • Questo è chiamato grafico WSS o elbow plot;
Individuazione del punto di gomito
expand arrow
  • Cercare un punto in cui la curva WSS si piega, formando un gomito;
  • Questo punto suggerisce il numero ottimale di cluster.
Note
Nota

Il punto di gomito nel grafico WSS è fondamentale. Rappresenta il punto dopo il quale la diminuzione del WSS inizia a rallentare significativamente.

Questo "gomito" è spesso considerato un forte indicatore del valore ottimale di K per i seguenti motivi:

  • Indica rendimenti decrescenti: aggiungere ulteriori cluster oltre il gomito non porta a un miglioramento sostanziale del WSS, il che significa che i cluster non diventano significativamente più compatti;

  • Bilancia granularità e semplicità: il gomito rappresenta spesso un buon compromesso tra la cattura della struttura essenziale nei dati senza overfitting o la creazione di cluster inutilmente troppo dettagliati.

Metodo del gomito

Ricorda che il metodo del gomito è una euristica. Il punto di gomito potrebbe non essere sempre ben definito e altri fattori potrebbero influenzare la scelta finale di K. L'ispezione visiva dei cluster risultanti e le tue conoscenze di dominio sono elementi preziosi da affiancare al metodo del gomito.

question mark

Quando si utilizza il metodo WSS per scegliere il numero di cluster nel K-means, cosa rappresenta tipicamente il punto di gomito sul grafico WSS?

Seleziona la risposta corretta

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 3. Capitolo 3

Chieda ad AI

expand

Chieda ad AI

ChatGPT

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Sezione 3. Capitolo 3
some-alt