Come Funziona il Clustering Gerarchico?
Il clustering gerarchico è un metodo di analisi dei cluster che mira a costruire una gerarchia di cluster. A differenza del K-means, non richiede di specificare in anticipo il numero di cluster.
L'algoritmo può iniziare con ogni punto nel proprio cluster e unirli progressivamente (clustering agglomerativo), oppure iniziare con tutti i punti in un unico cluster e suddividerli ricorsivamente in cluster più piccoli (clustering divisivo).
Poiché il clustering agglomerativo è l'approccio più comunemente utilizzato, ci concentreremo su questo.
Il tipo più comune di clustering gerarchico è l'approccio bottom-up. L'algoritmo è il seguente:
-
Inizializzazione: ogni punto dati è considerato come un singolo cluster;
-
Calcolo della matrice di prossimità: calcolare la distanza tra ogni coppia di cluster;
-
Unione dei cluster: i due cluster più vicini vengono uniti in un unico cluster;
-
Aggiornamento della matrice di prossimità: ricalcolare le distanze tra il nuovo cluster e tutti i cluster rimanenti;
-
Ripetizione: i passaggi 3 e 4 vengono ripetuti fino a quando tutti i punti dati sono uniti in un unico cluster.
Tipi di collegamento
La prossimità tra due cluster è definita dal tipo di collegamento. I metodi di collegamento più comuni utilizzati nel clustering gerarchico sono:
-
Collegamento singolo: la distanza tra i due punti più vicini nei due cluster;
-
Collegamento completo: la distanza tra i due punti più distanti nei due cluster;
-
Collegamento medio: la distanza media tra tutte le coppie di punti nei due cluster;
-
Metodo di Ward: minimizza l'aumento della varianza totale all'interno del cluster durante la fusione di due cluster.
La scelta del metodo di collegamento può influenzare la forma e la struttura dei cluster risultanti. Sperimentazione e conoscenza del dominio sono spesso utili per selezionare il metodo migliore per i propri dati.
Dendrogramma
I risultati del clustering gerarchico sono spesso visualizzati utilizzando un dendrogramma.
Un dendrogramma è un diagramma ad albero che mostra la relazione gerarchica tra i cluster. L'altezza dei rami nel dendrogramma rappresenta la distanza tra i cluster.
Grazie per i tuoi commenti!
Chieda ad AI
Chieda ad AI
Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione
Can you explain more about how to interpret a dendrogram?
What are the advantages and disadvantages of hierarchical clustering?
How do I choose the best linkage method for my data?
Awesome!
Completion rate improved to 2.94
Come Funziona il Clustering Gerarchico?
Scorri per mostrare il menu
Il clustering gerarchico è un metodo di analisi dei cluster che mira a costruire una gerarchia di cluster. A differenza del K-means, non richiede di specificare in anticipo il numero di cluster.
L'algoritmo può iniziare con ogni punto nel proprio cluster e unirli progressivamente (clustering agglomerativo), oppure iniziare con tutti i punti in un unico cluster e suddividerli ricorsivamente in cluster più piccoli (clustering divisivo).
Poiché il clustering agglomerativo è l'approccio più comunemente utilizzato, ci concentreremo su questo.
Il tipo più comune di clustering gerarchico è l'approccio bottom-up. L'algoritmo è il seguente:
-
Inizializzazione: ogni punto dati è considerato come un singolo cluster;
-
Calcolo della matrice di prossimità: calcolare la distanza tra ogni coppia di cluster;
-
Unione dei cluster: i due cluster più vicini vengono uniti in un unico cluster;
-
Aggiornamento della matrice di prossimità: ricalcolare le distanze tra il nuovo cluster e tutti i cluster rimanenti;
-
Ripetizione: i passaggi 3 e 4 vengono ripetuti fino a quando tutti i punti dati sono uniti in un unico cluster.
Tipi di collegamento
La prossimità tra due cluster è definita dal tipo di collegamento. I metodi di collegamento più comuni utilizzati nel clustering gerarchico sono:
-
Collegamento singolo: la distanza tra i due punti più vicini nei due cluster;
-
Collegamento completo: la distanza tra i due punti più distanti nei due cluster;
-
Collegamento medio: la distanza media tra tutte le coppie di punti nei due cluster;
-
Metodo di Ward: minimizza l'aumento della varianza totale all'interno del cluster durante la fusione di due cluster.
La scelta del metodo di collegamento può influenzare la forma e la struttura dei cluster risultanti. Sperimentazione e conoscenza del dominio sono spesso utili per selezionare il metodo migliore per i propri dati.
Dendrogramma
I risultati del clustering gerarchico sono spesso visualizzati utilizzando un dendrogramma.
Un dendrogramma è un diagramma ad albero che mostra la relazione gerarchica tra i cluster. L'altezza dei rami nel dendrogramma rappresenta la distanza tra i cluster.
Grazie per i tuoi commenti!