Nombre Optimal de Clusters
Contrairement au K-means, le clustering hiérarchique ne produit pas directement un nombre fixe de clusters. Il génère plutôt une hiérarchie. Il est donc nécessaire d'utiliser une méthode pour décider où couper le dendrogramme afin d'obtenir le nombre de clusters souhaité.
Méthodes pour déterminer le nombre de clusters
Pour déterminer le nombre optimal de clusters, plusieurs méthodes sont couramment utilisées, notamment la visualisation du dendrogramme, la méthode du coude et la méthode de la silhouette.
Visualisation du dendrogramme
Cette méthode consiste à inspecter visuellement le dendrogramme afin d'identifier les plus grands écarts verticaux qui ne sont pas traversés par des lignes horizontales. Le nombre de clusters peut être déduit du nombre de lignes verticales que ces écarts englobent. Cependant, cette méthode est subjective et dépend fortement de l'interprétation visuelle.
Méthode du coude (utilisant la somme des carrés intra-cluster - WCSS)
Dans cette approche, on effectue un clustering hiérarchique pour différentes valeurs du nombre de clusters et on calcule la WCSS pour chacune. En traçant les valeurs de la WCSS en fonction du nombre de clusters, il est possible d'identifier un point de "coude" sur le graphique. Ce point indique un bon compromis entre la minimisation de la WCSS et l'évitement d'un nombre excessif de clusters, similaire à la méthode du coude en K-means.
Méthode de la silhouette
Cette méthode consiste à calculer les scores de silhouette pour différents nombres de clusters en coupant le dendrogramme à différentes hauteurs. Le nombre optimal de clusters correspond à celui qui présente le score moyen de silhouette le plus élevé.
Merci pour vos commentaires !
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion
Awesome!
Completion rate improved to 2.94
Nombre Optimal de Clusters
Glissez pour afficher le menu
Contrairement au K-means, le clustering hiérarchique ne produit pas directement un nombre fixe de clusters. Il génère plutôt une hiérarchie. Il est donc nécessaire d'utiliser une méthode pour décider où couper le dendrogramme afin d'obtenir le nombre de clusters souhaité.
Méthodes pour déterminer le nombre de clusters
Pour déterminer le nombre optimal de clusters, plusieurs méthodes sont couramment utilisées, notamment la visualisation du dendrogramme, la méthode du coude et la méthode de la silhouette.
Visualisation du dendrogramme
Cette méthode consiste à inspecter visuellement le dendrogramme afin d'identifier les plus grands écarts verticaux qui ne sont pas traversés par des lignes horizontales. Le nombre de clusters peut être déduit du nombre de lignes verticales que ces écarts englobent. Cependant, cette méthode est subjective et dépend fortement de l'interprétation visuelle.
Méthode du coude (utilisant la somme des carrés intra-cluster - WCSS)
Dans cette approche, on effectue un clustering hiérarchique pour différentes valeurs du nombre de clusters et on calcule la WCSS pour chacune. En traçant les valeurs de la WCSS en fonction du nombre de clusters, il est possible d'identifier un point de "coude" sur le graphique. Ce point indique un bon compromis entre la minimisation de la WCSS et l'évitement d'un nombre excessif de clusters, similaire à la méthode du coude en K-means.
Méthode de la silhouette
Cette méthode consiste à calculer les scores de silhouette pour différents nombres de clusters en coupant le dendrogramme à différentes hauteurs. Le nombre optimal de clusters correspond à celui qui présente le score moyen de silhouette le plus élevé.
Merci pour vos commentaires !