Esecuzione del Clustering Gerarchico
Un clustermap è una rappresentazione matriciale che combina una heatmap con il clustering gerarchico.
Mentre una heatmap standard visualizza i dati in una griglia fissa, un clustermap riordina le righe e le colonne per posizionare valori simili uno accanto all'altro. I diagrammi ad albero sugli assi sono chiamati dendrogrammi e mostrano come i punti dati vengono raggruppati.
Parametri principali
Per controllare il funzionamento del clustering, è possibile utilizzare questi parametri:
standard_scale: standardizza i dati (0 per le righe, 1 per le colonne) in modo che ogni caratteristica abbia media 0 e varianza 1. Questo è fondamentale quando le variabili hanno unità diverse;metric: la misura di distanza da utilizzare (ad esempio,'euclidean','correlation'). Determina cosa significa "simile";method: l'algoritmo di collegamento da utilizzare (ad esempio,'single','complete','average'). Determina come raggruppare i cluster.
Esempio
Di seguito è riportato un clustermap del dataset Iris. Si noti come le specie (righe) vengano raggruppate automaticamente perché presentano misurazioni simili.
12345678910111213141516171819import seaborn as sns import matplotlib.pyplot as plt # Load dataset df = sns.load_dataset('iris') # Prepare matrix (drop non-numeric column for calculation) species = df.pop("species") # Create a clustermap sns.clustermap( data=df, standard_scale=1, # Normalize columns metric='euclidean', # Measure distance method='average', # clustering method cmap='viridis', figsize=(6, 6) ) plt.show()
Swipe to start coding
Analisi dei dati sui passeggeri dei voli per individuare somiglianze tra gli anni.
- Impostare lo stile su
'ticks'. Modificare il colore di sfondo in'seagreen'('figure.facecolor'). - Creare una clustermap utilizzando il DataFrame
upd_dfriformattato:
- Passare
upd_dfcome dati. - Normalizzare le colonne impostando
standard_scalea1. - Utilizzare
'single'comemethoddi clustering. - Impostare
'correlation'comemetricdi distanza. - Visualizzare i valori nelle celle (
annot=True). - Impostare i limiti dei valori:
vmin=0evmax=10. - Utilizzare la mappa colori
'vlag'.
- Visualizzare il grafico.
Soluzione
Grazie per i tuoi commenti!
single
Chieda ad AI
Chieda ad AI
Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione
Fantastico!
Completion tasso migliorato a 4.55
Esecuzione del Clustering Gerarchico
Scorri per mostrare il menu
Un clustermap è una rappresentazione matriciale che combina una heatmap con il clustering gerarchico.
Mentre una heatmap standard visualizza i dati in una griglia fissa, un clustermap riordina le righe e le colonne per posizionare valori simili uno accanto all'altro. I diagrammi ad albero sugli assi sono chiamati dendrogrammi e mostrano come i punti dati vengono raggruppati.
Parametri principali
Per controllare il funzionamento del clustering, è possibile utilizzare questi parametri:
standard_scale: standardizza i dati (0 per le righe, 1 per le colonne) in modo che ogni caratteristica abbia media 0 e varianza 1. Questo è fondamentale quando le variabili hanno unità diverse;metric: la misura di distanza da utilizzare (ad esempio,'euclidean','correlation'). Determina cosa significa "simile";method: l'algoritmo di collegamento da utilizzare (ad esempio,'single','complete','average'). Determina come raggruppare i cluster.
Esempio
Di seguito è riportato un clustermap del dataset Iris. Si noti come le specie (righe) vengano raggruppate automaticamente perché presentano misurazioni simili.
12345678910111213141516171819import seaborn as sns import matplotlib.pyplot as plt # Load dataset df = sns.load_dataset('iris') # Prepare matrix (drop non-numeric column for calculation) species = df.pop("species") # Create a clustermap sns.clustermap( data=df, standard_scale=1, # Normalize columns metric='euclidean', # Measure distance method='average', # clustering method cmap='viridis', figsize=(6, 6) ) plt.show()
Swipe to start coding
Analisi dei dati sui passeggeri dei voli per individuare somiglianze tra gli anni.
- Impostare lo stile su
'ticks'. Modificare il colore di sfondo in'seagreen'('figure.facecolor'). - Creare una clustermap utilizzando il DataFrame
upd_dfriformattato:
- Passare
upd_dfcome dati. - Normalizzare le colonne impostando
standard_scalea1. - Utilizzare
'single'comemethoddi clustering. - Impostare
'correlation'comemetricdi distanza. - Visualizzare i valori nelle celle (
annot=True). - Impostare i limiti dei valori:
vmin=0evmax=10. - Utilizzare la mappa colori
'vlag'.
- Visualizzare il grafico.
Soluzione
Grazie per i tuoi commenti!
single