Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Impara Esecuzione del Clustering Gerarchico | Sezione
Practice
Projects
Quizzes & Challenges
Quiz
Challenges
/
Visualizzazione Statistica con Seaborn

bookEsecuzione del Clustering Gerarchico

Un clustermap è una rappresentazione matriciale che combina una heatmap con il clustering gerarchico.

Mentre una heatmap standard visualizza i dati in una griglia fissa, un clustermap riordina le righe e le colonne per posizionare valori simili uno accanto all'altro. I diagrammi ad albero sugli assi sono chiamati dendrogrammi e mostrano come i punti dati vengono raggruppati.

Parametri principali

Per controllare il funzionamento del clustering, è possibile utilizzare questi parametri:

  • standard_scale: standardizza i dati (0 per le righe, 1 per le colonne) in modo che ogni caratteristica abbia media 0 e varianza 1. Questo è fondamentale quando le variabili hanno unità diverse;
  • metric: la misura di distanza da utilizzare (ad esempio, 'euclidean', 'correlation'). Determina cosa significa "simile";
  • method: l'algoritmo di collegamento da utilizzare (ad esempio, 'single', 'complete', 'average'). Determina come raggruppare i cluster.

Esempio

Di seguito è riportato un clustermap del dataset Iris. Si noti come le specie (righe) vengano raggruppate automaticamente perché presentano misurazioni simili.

12345678910111213141516171819
import seaborn as sns import matplotlib.pyplot as plt # Load dataset df = sns.load_dataset('iris') # Prepare matrix (drop non-numeric column for calculation) species = df.pop("species") # Create a clustermap sns.clustermap( data=df, standard_scale=1, # Normalize columns metric='euclidean', # Measure distance method='average', # clustering method cmap='viridis', figsize=(6, 6) ) plt.show()
copy
Compito

Swipe to start coding

Analisi dei dati sui passeggeri dei voli per individuare somiglianze tra gli anni.

  1. Impostare lo stile su 'ticks'. Modificare il colore di sfondo in 'seagreen' ('figure.facecolor').
  2. Creare una clustermap utilizzando il DataFrame upd_df riformattato:
  • Passare upd_df come dati.
  • Normalizzare le colonne impostando standard_scale a 1.
  • Utilizzare 'single' come method di clustering.
  • Impostare 'correlation' come metric di distanza.
  • Visualizzare i valori nelle celle (annot=True).
  • Impostare i limiti dei valori: vmin=0 e vmax=10.
  • Utilizzare la mappa colori 'vlag'.
  1. Visualizzare il grafico.

Soluzione

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 1. Capitolo 17
single

single

Chieda ad AI

expand

Chieda ad AI

ChatGPT

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

close

bookEsecuzione del Clustering Gerarchico

Scorri per mostrare il menu

Un clustermap è una rappresentazione matriciale che combina una heatmap con il clustering gerarchico.

Mentre una heatmap standard visualizza i dati in una griglia fissa, un clustermap riordina le righe e le colonne per posizionare valori simili uno accanto all'altro. I diagrammi ad albero sugli assi sono chiamati dendrogrammi e mostrano come i punti dati vengono raggruppati.

Parametri principali

Per controllare il funzionamento del clustering, è possibile utilizzare questi parametri:

  • standard_scale: standardizza i dati (0 per le righe, 1 per le colonne) in modo che ogni caratteristica abbia media 0 e varianza 1. Questo è fondamentale quando le variabili hanno unità diverse;
  • metric: la misura di distanza da utilizzare (ad esempio, 'euclidean', 'correlation'). Determina cosa significa "simile";
  • method: l'algoritmo di collegamento da utilizzare (ad esempio, 'single', 'complete', 'average'). Determina come raggruppare i cluster.

Esempio

Di seguito è riportato un clustermap del dataset Iris. Si noti come le specie (righe) vengano raggruppate automaticamente perché presentano misurazioni simili.

12345678910111213141516171819
import seaborn as sns import matplotlib.pyplot as plt # Load dataset df = sns.load_dataset('iris') # Prepare matrix (drop non-numeric column for calculation) species = df.pop("species") # Create a clustermap sns.clustermap( data=df, standard_scale=1, # Normalize columns metric='euclidean', # Measure distance method='average', # clustering method cmap='viridis', figsize=(6, 6) ) plt.show()
copy
Compito

Swipe to start coding

Analisi dei dati sui passeggeri dei voli per individuare somiglianze tra gli anni.

  1. Impostare lo stile su 'ticks'. Modificare il colore di sfondo in 'seagreen' ('figure.facecolor').
  2. Creare una clustermap utilizzando il DataFrame upd_df riformattato:
  • Passare upd_df come dati.
  • Normalizzare le colonne impostando standard_scale a 1.
  • Utilizzare 'single' come method di clustering.
  • Impostare 'correlation' come metric di distanza.
  • Visualizzare i valori nelle celle (annot=True).
  • Impostare i limiti dei valori: vmin=0 e vmax=10.
  • Utilizzare la mappa colori 'vlag'.
  1. Visualizzare il grafico.

Soluzione

Switch to desktopCambia al desktop per esercitarti nel mondo realeContinua da dove ti trovi utilizzando una delle opzioni seguenti
Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 1. Capitolo 17
single

single

some-alt