Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Réalisation d'une Classification Hiérarchique | Section
Visualisation Statistique Avec Seaborn

bookRéalisation d'une Classification Hiérarchique

Un clustermap est une représentation matricielle qui combine une carte thermique avec un regroupement hiérarchique.

Alors qu'une carte thermique standard affiche les données dans une grille fixe, un clustermap réorganise les lignes et les colonnes afin de placer les valeurs similaires côte à côte. Les diagrammes en forme d'arbre sur les axes sont appelés dendrogrammes, et ils illustrent la manière dont les points de données sont regroupés.

Paramètres clés

Pour contrôler le fonctionnement du regroupement, les paramètres suivants peuvent être utilisés :

  • standard_scale : standardise les données (0 pour les lignes, 1 pour les colonnes) afin que chaque caractéristique ait une moyenne de 0 et une variance de 1. Ceci est essentiel lorsque les variables ont des unités différentes ;
  • metric : mesure de distance à utiliser (par exemple, 'euclidean', 'correlation'). Cela détermine la définition de la similarité ;
  • method : algorithme de liaison à utiliser (par exemple, 'single', 'complete', 'average'). Cela détermine la manière de regrouper les clusters.

Exemple

Voici un clustermap du jeu de données Iris. Remarquer comment les espèces (lignes) sont automatiquement regroupées car elles présentent des mesures similaires.

12345678910111213141516171819
import seaborn as sns import matplotlib.pyplot as plt # Load dataset df = sns.load_dataset('iris') # Prepare matrix (drop non-numeric column for calculation) species = df.pop("species") # Create a clustermap sns.clustermap( data=df, standard_scale=1, # Normalize columns metric='euclidean', # Measure distance method='average', # clustering method cmap='viridis', figsize=(6, 6) ) plt.show()
copy
Tâche

Swipe to start coding

Analyser les données des passagers aériens pour identifier les similarités entre les années.

  1. Définir le style sur 'ticks'. Modifier la couleur de fond en 'seagreen' ('figure.facecolor').
  2. Créer une clustermap à l'aide du DataFrame upd_df remanié :
  • Utiliser upd_df comme données.
  • Normaliser les colonnes en définissant standard_scale à 1.
  • Employer la méthode de regroupement 'single' : method.
  • Utiliser 'correlation' comme métrique de distance metric.
  • Afficher les valeurs dans les cellules (annot=True).
  • Définir les limites des valeurs : vmin=0 et vmax=10.
  • Utiliser la palette de couleurs 'vlag'.
  1. Afficher le graphique.

Solution

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 1. Chapitre 17
single

single

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

close

bookRéalisation d'une Classification Hiérarchique

Glissez pour afficher le menu

Un clustermap est une représentation matricielle qui combine une carte thermique avec un regroupement hiérarchique.

Alors qu'une carte thermique standard affiche les données dans une grille fixe, un clustermap réorganise les lignes et les colonnes afin de placer les valeurs similaires côte à côte. Les diagrammes en forme d'arbre sur les axes sont appelés dendrogrammes, et ils illustrent la manière dont les points de données sont regroupés.

Paramètres clés

Pour contrôler le fonctionnement du regroupement, les paramètres suivants peuvent être utilisés :

  • standard_scale : standardise les données (0 pour les lignes, 1 pour les colonnes) afin que chaque caractéristique ait une moyenne de 0 et une variance de 1. Ceci est essentiel lorsque les variables ont des unités différentes ;
  • metric : mesure de distance à utiliser (par exemple, 'euclidean', 'correlation'). Cela détermine la définition de la similarité ;
  • method : algorithme de liaison à utiliser (par exemple, 'single', 'complete', 'average'). Cela détermine la manière de regrouper les clusters.

Exemple

Voici un clustermap du jeu de données Iris. Remarquer comment les espèces (lignes) sont automatiquement regroupées car elles présentent des mesures similaires.

12345678910111213141516171819
import seaborn as sns import matplotlib.pyplot as plt # Load dataset df = sns.load_dataset('iris') # Prepare matrix (drop non-numeric column for calculation) species = df.pop("species") # Create a clustermap sns.clustermap( data=df, standard_scale=1, # Normalize columns metric='euclidean', # Measure distance method='average', # clustering method cmap='viridis', figsize=(6, 6) ) plt.show()
copy
Tâche

Swipe to start coding

Analyser les données des passagers aériens pour identifier les similarités entre les années.

  1. Définir le style sur 'ticks'. Modifier la couleur de fond en 'seagreen' ('figure.facecolor').
  2. Créer une clustermap à l'aide du DataFrame upd_df remanié :
  • Utiliser upd_df comme données.
  • Normaliser les colonnes en définissant standard_scale à 1.
  • Employer la méthode de regroupement 'single' : method.
  • Utiliser 'correlation' comme métrique de distance metric.
  • Afficher les valeurs dans les cellules (annot=True).
  • Définir les limites des valeurs : vmin=0 et vmax=10.
  • Utiliser la palette de couleurs 'vlag'.
  1. Afficher le graphique.

Solution

Switch to desktopPassez à un bureau pour une pratique réelleContinuez d'où vous êtes en utilisant l'une des options ci-dessous
Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 1. Chapitre 17
single

single

some-alt