Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Nombre Optimal de Clusters | Section
Fondamentaux de l'apprentissage non supervisé

bookNombre Optimal de Clusters

Contrairement au K-means, le regroupement hiérarchique ne produit pas directement un nombre fixe de groupes. Il génère plutôt une hiérarchie. Il est donc nécessaire d'utiliser une méthode pour décider où couper le dendrogramme afin d'obtenir le nombre de groupes souhaité.

Méthodes pour déterminer le nombre de groupes

Pour déterminer le nombre optimal de groupes, plusieurs méthodes sont couramment utilisées, notamment la visualisation du dendrogramme, la méthode du coude et la méthode du score de silhouette.

Visualisation du dendrogramme

Cette méthode consiste à inspecter visuellement le dendrogramme pour repérer les plus grands écarts verticaux qui ne sont pas traversés par des lignes horizontales. Le nombre de groupes peut être déduit du nombre de lignes verticales que ces écarts englobent. Cependant, cette méthode est subjective et dépend fortement de l'interprétation visuelle.

Méthode du coude (en utilisant la somme des carrés intra-groupes - WCSS)

Dans cette approche, on effectue un regroupement hiérarchique pour différentes valeurs du nombre de groupes et on calcule la WCSS pour chacune. En traçant les valeurs de la WCSS en fonction du nombre de groupes, il est possible d'identifier un point de "coude" sur le graphique. Ce point indique un bon compromis entre la minimisation de la WCSS et l'évitement d'un nombre excessif de groupes, similaire à la méthode du coude en K-means.

Méthode du score de silhouette

Cette méthode consiste à calculer les scores de silhouette pour différents nombres de groupes en coupant le dendrogramme à diverses hauteurs. Le nombre optimal de groupes correspond à celui qui présente le score de silhouette moyen le plus élevé.

Note
Remarque

Le calcul de la WCSS et des scores de silhouette pour le regroupement hiérarchique peut être coûteux en ressources de calcul, en particulier pour les grands ensembles de données.

Lors du choix du nombre de groupes, votre compréhension des données et du problème à résoudre doit également orienter votre décision.

question mark

Laquelle des méthodes suivantes est couramment utilisée pour déterminer le nombre de clusters en classification hiérarchique ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 1. Chapitre 15

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

bookNombre Optimal de Clusters

Glissez pour afficher le menu

Contrairement au K-means, le regroupement hiérarchique ne produit pas directement un nombre fixe de groupes. Il génère plutôt une hiérarchie. Il est donc nécessaire d'utiliser une méthode pour décider où couper le dendrogramme afin d'obtenir le nombre de groupes souhaité.

Méthodes pour déterminer le nombre de groupes

Pour déterminer le nombre optimal de groupes, plusieurs méthodes sont couramment utilisées, notamment la visualisation du dendrogramme, la méthode du coude et la méthode du score de silhouette.

Visualisation du dendrogramme

Cette méthode consiste à inspecter visuellement le dendrogramme pour repérer les plus grands écarts verticaux qui ne sont pas traversés par des lignes horizontales. Le nombre de groupes peut être déduit du nombre de lignes verticales que ces écarts englobent. Cependant, cette méthode est subjective et dépend fortement de l'interprétation visuelle.

Méthode du coude (en utilisant la somme des carrés intra-groupes - WCSS)

Dans cette approche, on effectue un regroupement hiérarchique pour différentes valeurs du nombre de groupes et on calcule la WCSS pour chacune. En traçant les valeurs de la WCSS en fonction du nombre de groupes, il est possible d'identifier un point de "coude" sur le graphique. Ce point indique un bon compromis entre la minimisation de la WCSS et l'évitement d'un nombre excessif de groupes, similaire à la méthode du coude en K-means.

Méthode du score de silhouette

Cette méthode consiste à calculer les scores de silhouette pour différents nombres de groupes en coupant le dendrogramme à diverses hauteurs. Le nombre optimal de groupes correspond à celui qui présente le score de silhouette moyen le plus élevé.

Note
Remarque

Le calcul de la WCSS et des scores de silhouette pour le regroupement hiérarchique peut être coûteux en ressources de calcul, en particulier pour les grands ensembles de données.

Lors du choix du nombre de groupes, votre compréhension des données et du problème à résoudre doit également orienter votre décision.

question mark

Laquelle des méthodes suivantes est couramment utilisée pour déterminer le nombre de clusters en classification hiérarchique ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 1. Chapitre 15
some-alt