Comment Fonctionne le Clustering Hiérarchique ?
Le clustering hiérarchique est une méthode d'analyse de regroupement qui vise à construire une hiérarchie de clusters. Contrairement à K-means, il n'est pas nécessaire de spécifier à l'avance le nombre de clusters.
L'algorithme peut soit commencer avec chaque point dans son propre cluster et les fusionner successivement (clustering agglomératif), soit commencer avec tous les points dans un seul cluster et les diviser récursivement en clusters plus petits (clustering divisif).
Puisque le clustering agglomératif est l'approche la plus couramment utilisée, nous nous concentrerons sur celle-ci.
Le type le plus courant de clustering hiérarchique est l'approche ascendante. L'algorithme est le suivant :
-
Initialisation : chaque point de données est considéré comme un cluster unique ;
-
Calcul de la matrice de proximité : calculer la distance entre chaque paire de clusters ;
-
Fusion des clusters : les deux clusters les plus proches sont fusionnés en un seul cluster ;
-
Mise à jour de la matrice de proximité : recalculer les distances entre le nouveau cluster et tous les clusters restants ;
-
Répétition : les étapes 3 et 4 sont répétées jusqu'à ce que tous les points de données soient fusionnés en un seul cluster.
Types de liaison
La proximité entre deux groupes est définie par le type de liaison. Les méthodes de liaison couramment utilisées dans le regroupement hiérarchique sont :
-
Liaison simple : la distance entre les deux points les plus proches dans les deux groupes ;
-
Liaison complète : la distance entre les deux points les plus éloignés dans les deux groupes ;
-
Liaison moyenne : la distance moyenne entre toutes les paires de points dans les deux groupes ;
-
Méthode de Ward : minimise l’augmentation de la variance intra-groupe totale lors de la fusion de deux groupes.
Le choix de la méthode de liaison peut influencer la forme et la structure des groupes obtenus. L’expérimentation et la connaissance du domaine sont souvent utiles pour sélectionner la méthode la plus adaptée à vos données.
Dendrogramme
Les résultats du regroupement hiérarchique sont souvent visualisés à l’aide d’un dendrogramme.
Un dendrogramme est un diagramme arborescent qui montre la relation hiérarchique entre les groupes. La hauteur des branches dans le dendrogramme représente la distance entre les groupes.
Merci pour vos commentaires !
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion
Génial!
Completion taux amélioré à 3.23
Comment Fonctionne le Clustering Hiérarchique ?
Glissez pour afficher le menu
Le clustering hiérarchique est une méthode d'analyse de regroupement qui vise à construire une hiérarchie de clusters. Contrairement à K-means, il n'est pas nécessaire de spécifier à l'avance le nombre de clusters.
L'algorithme peut soit commencer avec chaque point dans son propre cluster et les fusionner successivement (clustering agglomératif), soit commencer avec tous les points dans un seul cluster et les diviser récursivement en clusters plus petits (clustering divisif).
Puisque le clustering agglomératif est l'approche la plus couramment utilisée, nous nous concentrerons sur celle-ci.
Le type le plus courant de clustering hiérarchique est l'approche ascendante. L'algorithme est le suivant :
-
Initialisation : chaque point de données est considéré comme un cluster unique ;
-
Calcul de la matrice de proximité : calculer la distance entre chaque paire de clusters ;
-
Fusion des clusters : les deux clusters les plus proches sont fusionnés en un seul cluster ;
-
Mise à jour de la matrice de proximité : recalculer les distances entre le nouveau cluster et tous les clusters restants ;
-
Répétition : les étapes 3 et 4 sont répétées jusqu'à ce que tous les points de données soient fusionnés en un seul cluster.
Types de liaison
La proximité entre deux groupes est définie par le type de liaison. Les méthodes de liaison couramment utilisées dans le regroupement hiérarchique sont :
-
Liaison simple : la distance entre les deux points les plus proches dans les deux groupes ;
-
Liaison complète : la distance entre les deux points les plus éloignés dans les deux groupes ;
-
Liaison moyenne : la distance moyenne entre toutes les paires de points dans les deux groupes ;
-
Méthode de Ward : minimise l’augmentation de la variance intra-groupe totale lors de la fusion de deux groupes.
Le choix de la méthode de liaison peut influencer la forme et la structure des groupes obtenus. L’expérimentation et la connaissance du domaine sont souvent utiles pour sélectionner la méthode la plus adaptée à vos données.
Dendrogramme
Les résultats du regroupement hiérarchique sont souvent visualisés à l’aide d’un dendrogramme.
Un dendrogramme est un diagramme arborescent qui montre la relation hiérarchique entre les groupes. La hauteur des branches dans le dendrogramme représente la distance entre les groupes.
Merci pour vos commentaires !