Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Nombre Optimal de Clusters | Regroupement Hiérarchique
Analyse de Clusters

bookNombre Optimal de Clusters

Contrairement au K-means, le clustering hiérarchique ne produit pas directement un nombre fixe de clusters. Il génère plutôt une hiérarchie. Il est donc nécessaire d'utiliser une méthode pour décider où couper le dendrogramme afin d'obtenir le nombre de clusters souhaité.

Méthodes pour déterminer le nombre de clusters

Pour déterminer le nombre optimal de clusters, plusieurs méthodes sont couramment utilisées, notamment la visualisation du dendrogramme, la méthode du coude et la méthode de la silhouette.

Visualisation du dendrogramme

Cette méthode consiste à inspecter visuellement le dendrogramme afin d'identifier les plus grands écarts verticaux qui ne sont pas traversés par des lignes horizontales. Le nombre de clusters peut être déduit du nombre de lignes verticales que ces écarts englobent. Cependant, cette méthode est subjective et dépend fortement de l'interprétation visuelle.

Méthode du coude (utilisant la somme des carrés intra-cluster - WCSS)

Dans cette approche, on effectue un clustering hiérarchique pour différentes valeurs du nombre de clusters et on calcule la WCSS pour chacune. En traçant les valeurs de la WCSS en fonction du nombre de clusters, il est possible d'identifier un point de "coude" sur le graphique. Ce point indique un bon compromis entre la minimisation de la WCSS et l'évitement d'un nombre excessif de clusters, similaire à la méthode du coude en K-means.

Méthode de la silhouette

Cette méthode consiste à calculer les scores de silhouette pour différents nombres de clusters en coupant le dendrogramme à différentes hauteurs. Le nombre optimal de clusters correspond à celui qui présente le score moyen de silhouette le plus élevé.

question mark

Laquelle des méthodes suivantes est couramment utilisée pour déterminer le nombre de clusters en clustering hiérarchique ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 4. Chapitre 2

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Awesome!

Completion rate improved to 2.94

bookNombre Optimal de Clusters

Glissez pour afficher le menu

Contrairement au K-means, le clustering hiérarchique ne produit pas directement un nombre fixe de clusters. Il génère plutôt une hiérarchie. Il est donc nécessaire d'utiliser une méthode pour décider où couper le dendrogramme afin d'obtenir le nombre de clusters souhaité.

Méthodes pour déterminer le nombre de clusters

Pour déterminer le nombre optimal de clusters, plusieurs méthodes sont couramment utilisées, notamment la visualisation du dendrogramme, la méthode du coude et la méthode de la silhouette.

Visualisation du dendrogramme

Cette méthode consiste à inspecter visuellement le dendrogramme afin d'identifier les plus grands écarts verticaux qui ne sont pas traversés par des lignes horizontales. Le nombre de clusters peut être déduit du nombre de lignes verticales que ces écarts englobent. Cependant, cette méthode est subjective et dépend fortement de l'interprétation visuelle.

Méthode du coude (utilisant la somme des carrés intra-cluster - WCSS)

Dans cette approche, on effectue un clustering hiérarchique pour différentes valeurs du nombre de clusters et on calcule la WCSS pour chacune. En traçant les valeurs de la WCSS en fonction du nombre de clusters, il est possible d'identifier un point de "coude" sur le graphique. Ce point indique un bon compromis entre la minimisation de la WCSS et l'évitement d'un nombre excessif de clusters, similaire à la méthode du coude en K-means.

Méthode de la silhouette

Cette méthode consiste à calculer les scores de silhouette pour différents nombres de clusters en coupant le dendrogramme à différentes hauteurs. Le nombre optimal de clusters correspond à celui qui présente le score moyen de silhouette le plus élevé.

question mark

Laquelle des méthodes suivantes est couramment utilisée pour déterminer le nombre de clusters en clustering hiérarchique ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 4. Chapitre 2
some-alt