Réalisation d'une Classification Hiérarchique
Un clustermap est une représentation matricielle qui combine une carte thermique avec un regroupement hiérarchique.
Alors qu'une carte thermique standard affiche les données dans une grille fixe, un clustermap réorganise les lignes et les colonnes afin de placer les valeurs similaires côte à côte. Les diagrammes en forme d'arbre sur les axes sont appelés dendrogrammes, et ils illustrent la manière dont les points de données sont regroupés.
Paramètres clés
Pour contrôler le fonctionnement du regroupement, les paramètres suivants peuvent être utilisés :
standard_scale: standardise les données (0 pour les lignes, 1 pour les colonnes) afin que chaque caractéristique ait une moyenne de 0 et une variance de 1. Ceci est essentiel lorsque les variables ont des unités différentes ;metric: mesure de distance à utiliser (par exemple,'euclidean','correlation'). Cela détermine la définition de la similarité ;method: algorithme de liaison à utiliser (par exemple,'single','complete','average'). Cela détermine la manière de regrouper les clusters.
Exemple
Voici un clustermap du jeu de données Iris. Remarquer comment les espèces (lignes) sont automatiquement regroupées car elles présentent des mesures similaires.
12345678910111213141516171819import seaborn as sns import matplotlib.pyplot as plt # Load dataset df = sns.load_dataset('iris') # Prepare matrix (drop non-numeric column for calculation) species = df.pop("species") # Create a clustermap sns.clustermap( data=df, standard_scale=1, # Normalize columns metric='euclidean', # Measure distance method='average', # clustering method cmap='viridis', figsize=(6, 6) ) plt.show()
Swipe to start coding
Analyser les données des passagers aériens pour identifier les similarités entre les années.
- Définir le style sur
'ticks'. Modifier la couleur de fond en'seagreen'('figure.facecolor'). - Créer une clustermap à l'aide du DataFrame
upd_dfremanié :
- Utiliser
upd_dfcomme données. - Normaliser les colonnes en définissant
standard_scaleà1. - Employer la méthode de regroupement
'single':method. - Utiliser
'correlation'comme métrique de distancemetric. - Afficher les valeurs dans les cellules (
annot=True). - Définir les limites des valeurs :
vmin=0etvmax=10. - Utiliser la palette de couleurs
'vlag'.
- Afficher le graphique.
Solution
Merci pour vos commentaires !
single
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion
Génial!
Completion taux amélioré à 4.55
Réalisation d'une Classification Hiérarchique
Glissez pour afficher le menu
Un clustermap est une représentation matricielle qui combine une carte thermique avec un regroupement hiérarchique.
Alors qu'une carte thermique standard affiche les données dans une grille fixe, un clustermap réorganise les lignes et les colonnes afin de placer les valeurs similaires côte à côte. Les diagrammes en forme d'arbre sur les axes sont appelés dendrogrammes, et ils illustrent la manière dont les points de données sont regroupés.
Paramètres clés
Pour contrôler le fonctionnement du regroupement, les paramètres suivants peuvent être utilisés :
standard_scale: standardise les données (0 pour les lignes, 1 pour les colonnes) afin que chaque caractéristique ait une moyenne de 0 et une variance de 1. Ceci est essentiel lorsque les variables ont des unités différentes ;metric: mesure de distance à utiliser (par exemple,'euclidean','correlation'). Cela détermine la définition de la similarité ;method: algorithme de liaison à utiliser (par exemple,'single','complete','average'). Cela détermine la manière de regrouper les clusters.
Exemple
Voici un clustermap du jeu de données Iris. Remarquer comment les espèces (lignes) sont automatiquement regroupées car elles présentent des mesures similaires.
12345678910111213141516171819import seaborn as sns import matplotlib.pyplot as plt # Load dataset df = sns.load_dataset('iris') # Prepare matrix (drop non-numeric column for calculation) species = df.pop("species") # Create a clustermap sns.clustermap( data=df, standard_scale=1, # Normalize columns metric='euclidean', # Measure distance method='average', # clustering method cmap='viridis', figsize=(6, 6) ) plt.show()
Swipe to start coding
Analyser les données des passagers aériens pour identifier les similarités entre les années.
- Définir le style sur
'ticks'. Modifier la couleur de fond en'seagreen'('figure.facecolor'). - Créer une clustermap à l'aide du DataFrame
upd_dfremanié :
- Utiliser
upd_dfcomme données. - Normaliser les colonnes en définissant
standard_scaleà1. - Employer la méthode de regroupement
'single':method. - Utiliser
'correlation'comme métrique de distancemetric. - Afficher les valeurs dans les cellules (
annot=True). - Définir les limites des valeurs :
vmin=0etvmax=10. - Utiliser la palette de couleurs
'vlag'.
- Afficher le graphique.
Solution
Merci pour vos commentaires !
single