Détermination du Nombre Optimal de Clusters à l'Aide du Score de Silhouette
Outre la méthode WSS, le score de silhouette constitue un autre indicateur précieux pour déterminer le nombre optimal de clusters (K) dans K-means. Il évalue dans quelle mesure chaque point de données s’intègre à son cluster par rapport aux autres.
Pour chaque point de données, le score de silhouette prend en compte :
-
Cohésion (a) : distance moyenne aux points de son propre cluster ;
-
Séparation (b) : distance moyenne aux points du cluster autre le plus proche.
Le score de silhouette se calcule ainsi : (b - a) / max(a, b), avec une plage de valeurs de -1 à +1.
Interprétation du score :
-
+1 : point bien regroupé ;
-
~0 : point situé à la frontière du cluster ;
-
-1 : point potentiellement mal classé.
Les étapes pour trouver le K optimal à l’aide du score de silhouette sont les suivantes :
-
Exécuter K-means pour une plage de valeurs de K (par exemple, K=2 jusqu’à une limite raisonnable) ;
-
Pour chaque K, calculer le score de silhouette moyen ;
-
Tracer le score de silhouette moyen en fonction de K (silhouette plot) ;
-
Choisir le K avec le score de silhouette moyen le plus élevé.
L’examen du silhouette plot, qui affiche les scores pour chaque point, peut fournir des informations plus approfondies sur la cohérence des clusters. Des scores moyens élevés et homogènes entre les points sont souhaitables.
En résumé, tandis que la méthode WSS minimise les distances intra-cluster, le score de silhouette équilibre cohésion et séparation. L’utilisation conjointe des deux approches permet une détermination plus robuste du K optimal.
Merci pour vos commentaires !
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion
Awesome!
Completion rate improved to 2.94
Détermination du Nombre Optimal de Clusters à l'Aide du Score de Silhouette
Glissez pour afficher le menu
Outre la méthode WSS, le score de silhouette constitue un autre indicateur précieux pour déterminer le nombre optimal de clusters (K) dans K-means. Il évalue dans quelle mesure chaque point de données s’intègre à son cluster par rapport aux autres.
Pour chaque point de données, le score de silhouette prend en compte :
-
Cohésion (a) : distance moyenne aux points de son propre cluster ;
-
Séparation (b) : distance moyenne aux points du cluster autre le plus proche.
Le score de silhouette se calcule ainsi : (b - a) / max(a, b), avec une plage de valeurs de -1 à +1.
Interprétation du score :
-
+1 : point bien regroupé ;
-
~0 : point situé à la frontière du cluster ;
-
-1 : point potentiellement mal classé.
Les étapes pour trouver le K optimal à l’aide du score de silhouette sont les suivantes :
-
Exécuter K-means pour une plage de valeurs de K (par exemple, K=2 jusqu’à une limite raisonnable) ;
-
Pour chaque K, calculer le score de silhouette moyen ;
-
Tracer le score de silhouette moyen en fonction de K (silhouette plot) ;
-
Choisir le K avec le score de silhouette moyen le plus élevé.
L’examen du silhouette plot, qui affiche les scores pour chaque point, peut fournir des informations plus approfondies sur la cohérence des clusters. Des scores moyens élevés et homogènes entre les points sont souhaitables.
En résumé, tandis que la méthode WSS minimise les distances intra-cluster, le score de silhouette équilibre cohésion et séparation. L’utilisation conjointe des deux approches permet une détermination plus robuste du K optimal.
Merci pour vos commentaires !