Détermination du Nombre Optimal de Clusters à l'Aide du Score de Silhouette
Glissez pour afficher le menu
En plus de la méthode WSS, le score de silhouette constitue un autre indicateur précieux pour déterminer le nombre optimal de clusters (K) dans K-means. Il évalue dans quelle mesure chaque point de données s’intègre à son cluster par rapport aux autres.
Pour chaque point de données, le score de silhouette prend en compte :
-
Cohésion (a) : distance moyenne aux points de son propre cluster ;
-
Séparation (b) : distance moyenne aux points du cluster le plus proche.
Le score de silhouette se calcule ainsi : (b - a) / max(a, b), avec une plage de valeurs de -1 à +1.
Interprétation du score :
-
+1 : point bien regroupé ;
-
~0 : point situé à la frontière entre deux clusters ;
-
-1 : point potentiellement mal classé.
Étapes pour trouver le K optimal à l'aide du score de silhouette :
-
Exécuter K-means pour une plage de valeurs de K (par exemple, K=2 jusqu'à une limite raisonnable) ;
-
Pour chaque K, calculer le score de silhouette moyen ;
-
Tracer le score de silhouette moyen en fonction de K (silhouette plot) ;
-
Choisir le K avec le score de silhouette moyen le plus élevé.
L'examen du silhouette plot, qui affiche les scores pour chaque point, peut offrir des informations plus approfondies sur la cohérence des clusters. Des scores moyens élevés et des scores cohérents entre les points sont souhaitables.
En résumé, alors que la WSS minimise les distances intra-cluster, le score de silhouette équilibre la cohésion et la séparation. Utiliser les deux fournit une approche plus robuste pour trouver le K optimal.
Merci pour vos commentaires !
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion