Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Comment Fonctionne le Clustering Hiérarchique ? | Regroupement Hiérarchique
Analyse de Clusters

bookComment Fonctionne le Clustering Hiérarchique ?

Note
Définition

Le clustering hiérarchique est une méthode d'analyse de regroupement qui vise à construire une hiérarchie de clusters. Contrairement au K-means, il n'est pas nécessaire de spécifier à l'avance le nombre de clusters.

L'algorithme peut commencer soit avec chaque point dans son propre cluster et les fusionner successivement (clustering agglomératif), soit avec tous les points dans un seul cluster et les diviser récursivement en clusters plus petits (clustering divisif).

Puisque le clustering agglomératif est l'approche la plus couramment utilisée, nous nous concentrerons sur celle-ci.

Le type le plus courant de clustering hiérarchique est l'approche ascendante. L'algorithme est le suivant :

  1. Initialisation : chaque point de données est considéré comme un cluster unique ;

  2. Calcul de la matrice de proximité : calculer la distance entre chaque paire de clusters ;

  3. Fusion des clusters : les deux clusters les plus proches sont fusionnés en un seul cluster ;

  4. Mise à jour de la matrice de proximité : recalculer les distances entre le nouveau cluster et tous les clusters restants ;

  5. Répétition : les étapes 3 et 4 sont répétées jusqu'à ce que tous les points de données soient fusionnés en un seul cluster.

Types de liaison

La proximité entre deux clusters est définie par le type de liaison. Les méthodes de liaison couramment utilisées dans le regroupement hiérarchique sont :

  • Liaison simple : la distance entre les deux points les plus proches dans les deux clusters ;

  • Liaison complète : la distance entre les deux points les plus éloignés dans les deux clusters ;

  • Liaison moyenne : la distance moyenne entre toutes les paires de points dans les deux clusters ;

  • Méthode de Ward : minimise l’augmentation de la variance totale intra-cluster lors de la fusion de deux clusters.

Le choix de la méthode de liaison peut influencer la forme et la structure des clusters obtenus. L’expérimentation et la connaissance du domaine sont souvent utiles pour sélectionner la méthode la plus adaptée à vos données.

Dendrogramme

Les résultats du regroupement hiérarchique sont souvent visualisés à l’aide d’un dendrogramme.

Note
Définition

Un dendrogramme est un diagramme arborescent qui montre la relation hiérarchique entre les clusters. La hauteur des branches dans le dendrogramme représente la distance entre les clusters.

question mark

Quelle est la caractéristique principale de l'approche hiérarchique ascendante (agglomérative) du regroupement ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 4. Chapitre 1

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Awesome!

Completion rate improved to 2.94

bookComment Fonctionne le Clustering Hiérarchique ?

Glissez pour afficher le menu

Note
Définition

Le clustering hiérarchique est une méthode d'analyse de regroupement qui vise à construire une hiérarchie de clusters. Contrairement au K-means, il n'est pas nécessaire de spécifier à l'avance le nombre de clusters.

L'algorithme peut commencer soit avec chaque point dans son propre cluster et les fusionner successivement (clustering agglomératif), soit avec tous les points dans un seul cluster et les diviser récursivement en clusters plus petits (clustering divisif).

Puisque le clustering agglomératif est l'approche la plus couramment utilisée, nous nous concentrerons sur celle-ci.

Le type le plus courant de clustering hiérarchique est l'approche ascendante. L'algorithme est le suivant :

  1. Initialisation : chaque point de données est considéré comme un cluster unique ;

  2. Calcul de la matrice de proximité : calculer la distance entre chaque paire de clusters ;

  3. Fusion des clusters : les deux clusters les plus proches sont fusionnés en un seul cluster ;

  4. Mise à jour de la matrice de proximité : recalculer les distances entre le nouveau cluster et tous les clusters restants ;

  5. Répétition : les étapes 3 et 4 sont répétées jusqu'à ce que tous les points de données soient fusionnés en un seul cluster.

Types de liaison

La proximité entre deux clusters est définie par le type de liaison. Les méthodes de liaison couramment utilisées dans le regroupement hiérarchique sont :

  • Liaison simple : la distance entre les deux points les plus proches dans les deux clusters ;

  • Liaison complète : la distance entre les deux points les plus éloignés dans les deux clusters ;

  • Liaison moyenne : la distance moyenne entre toutes les paires de points dans les deux clusters ;

  • Méthode de Ward : minimise l’augmentation de la variance totale intra-cluster lors de la fusion de deux clusters.

Le choix de la méthode de liaison peut influencer la forme et la structure des clusters obtenus. L’expérimentation et la connaissance du domaine sont souvent utiles pour sélectionner la méthode la plus adaptée à vos données.

Dendrogramme

Les résultats du regroupement hiérarchique sont souvent visualisés à l’aide d’un dendrogramme.

Note
Définition

Un dendrogramme est un diagramme arborescent qui montre la relation hiérarchique entre les clusters. La hauteur des branches dans le dendrogramme représente la distance entre les clusters.

question mark

Quelle est la caractéristique principale de l'approche hiérarchique ascendante (agglomérative) du regroupement ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 4. Chapitre 1
some-alt