Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Comment Fonctionne le Clustering Hiérarchique ? | Section
Practice
Projects
Quizzes & Challenges
Quiz
Challenges
/
Fondamentaux de l'apprentissage non supervisé

bookComment Fonctionne le Clustering Hiérarchique ?

Note
Définition

Le clustering hiérarchique est une méthode d'analyse de regroupement qui vise à construire une hiérarchie de clusters. Contrairement à K-means, il n'est pas nécessaire de spécifier à l'avance le nombre de clusters.

L'algorithme peut soit commencer avec chaque point dans son propre cluster et les fusionner successivement (clustering agglomératif), soit commencer avec tous les points dans un seul cluster et les diviser récursivement en clusters plus petits (clustering divisif).

Puisque le clustering agglomératif est l'approche la plus couramment utilisée, nous nous concentrerons sur celle-ci.

Le type le plus courant de clustering hiérarchique est l'approche ascendante. L'algorithme est le suivant :

  1. Initialisation : chaque point de données est considéré comme un cluster unique ;

  2. Calcul de la matrice de proximité : calculer la distance entre chaque paire de clusters ;

  3. Fusion des clusters : les deux clusters les plus proches sont fusionnés en un seul cluster ;

  4. Mise à jour de la matrice de proximité : recalculer les distances entre le nouveau cluster et tous les clusters restants ;

  5. Répétition : les étapes 3 et 4 sont répétées jusqu'à ce que tous les points de données soient fusionnés en un seul cluster.

Types de liaison

La proximité entre deux groupes est définie par le type de liaison. Les méthodes de liaison couramment utilisées dans le regroupement hiérarchique sont :

  • Liaison simple : la distance entre les deux points les plus proches dans les deux groupes ;

  • Liaison complète : la distance entre les deux points les plus éloignés dans les deux groupes ;

  • Liaison moyenne : la distance moyenne entre toutes les paires de points dans les deux groupes ;

  • Méthode de Ward : minimise l’augmentation de la variance intra-groupe totale lors de la fusion de deux groupes.

Le choix de la méthode de liaison peut influencer la forme et la structure des groupes obtenus. L’expérimentation et la connaissance du domaine sont souvent utiles pour sélectionner la méthode la plus adaptée à vos données.

Dendrogramme

Les résultats du regroupement hiérarchique sont souvent visualisés à l’aide d’un dendrogramme.

Note
Définition

Un dendrogramme est un diagramme arborescent qui montre la relation hiérarchique entre les groupes. La hauteur des branches dans le dendrogramme représente la distance entre les groupes.

question mark

Quelle est la caractéristique principale de l'approche hiérarchique ascendante (agglomérative) du clustering ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 1. Chapitre 14

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

bookComment Fonctionne le Clustering Hiérarchique ?

Glissez pour afficher le menu

Note
Définition

Le clustering hiérarchique est une méthode d'analyse de regroupement qui vise à construire une hiérarchie de clusters. Contrairement à K-means, il n'est pas nécessaire de spécifier à l'avance le nombre de clusters.

L'algorithme peut soit commencer avec chaque point dans son propre cluster et les fusionner successivement (clustering agglomératif), soit commencer avec tous les points dans un seul cluster et les diviser récursivement en clusters plus petits (clustering divisif).

Puisque le clustering agglomératif est l'approche la plus couramment utilisée, nous nous concentrerons sur celle-ci.

Le type le plus courant de clustering hiérarchique est l'approche ascendante. L'algorithme est le suivant :

  1. Initialisation : chaque point de données est considéré comme un cluster unique ;

  2. Calcul de la matrice de proximité : calculer la distance entre chaque paire de clusters ;

  3. Fusion des clusters : les deux clusters les plus proches sont fusionnés en un seul cluster ;

  4. Mise à jour de la matrice de proximité : recalculer les distances entre le nouveau cluster et tous les clusters restants ;

  5. Répétition : les étapes 3 et 4 sont répétées jusqu'à ce que tous les points de données soient fusionnés en un seul cluster.

Types de liaison

La proximité entre deux groupes est définie par le type de liaison. Les méthodes de liaison couramment utilisées dans le regroupement hiérarchique sont :

  • Liaison simple : la distance entre les deux points les plus proches dans les deux groupes ;

  • Liaison complète : la distance entre les deux points les plus éloignés dans les deux groupes ;

  • Liaison moyenne : la distance moyenne entre toutes les paires de points dans les deux groupes ;

  • Méthode de Ward : minimise l’augmentation de la variance intra-groupe totale lors de la fusion de deux groupes.

Le choix de la méthode de liaison peut influencer la forme et la structure des groupes obtenus. L’expérimentation et la connaissance du domaine sont souvent utiles pour sélectionner la méthode la plus adaptée à vos données.

Dendrogramme

Les résultats du regroupement hiérarchique sont souvent visualisés à l’aide d’un dendrogramme.

Note
Définition

Un dendrogramme est un diagramme arborescent qui montre la relation hiérarchique entre les groupes. La hauteur des branches dans le dendrogramme représente la distance entre les groupes.

question mark

Quelle est la caractéristique principale de l'approche hiérarchique ascendante (agglomérative) du clustering ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 1. Chapitre 14
some-alt