Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Détermination du Nombre Optimal de Clusters à l'Aide du Score de Silhouette | K-Means
Analyse de Clusters

bookDétermination du Nombre Optimal de Clusters à l'Aide du Score de Silhouette

Outre la méthode WSS, le score de silhouette constitue un autre indicateur précieux pour déterminer le nombre optimal de clusters (K) dans K-means. Il évalue dans quelle mesure chaque point de données s’intègre à son cluster par rapport aux autres.

Pour chaque point de données, le score de silhouette prend en compte :

  • Cohésion (a) : distance moyenne aux points de son propre cluster ;

  • Séparation (b) : distance moyenne aux points du cluster autre le plus proche.

Le score de silhouette se calcule ainsi : (b - a) / max(a, b), avec une plage de valeurs de -1 à +1.

Interprétation du score :

  • +1 : point bien regroupé ;

  • ~0 : point situé à la frontière du cluster ;

  • -1 : point potentiellement mal classé.

Les étapes pour trouver le K optimal à l’aide du score de silhouette sont les suivantes :

  • Exécuter K-means pour une plage de valeurs de K (par exemple, K=2 jusqu’à une limite raisonnable) ;

  • Pour chaque K, calculer le score de silhouette moyen ;

  • Tracer le score de silhouette moyen en fonction de K (silhouette plot) ;

  • Choisir le K avec le score de silhouette moyen le plus élevé.

L’examen du silhouette plot, qui affiche les scores pour chaque point, peut fournir des informations plus approfondies sur la cohérence des clusters. Des scores moyens élevés et homogènes entre les points sont souhaitables.

En résumé, tandis que la méthode WSS minimise les distances intra-cluster, le score de silhouette équilibre cohésion et séparation. L’utilisation conjointe des deux approches permet une détermination plus robuste du K optimal.

question mark

Que signifie un score de silhouette moyen élevé (proche de +1) lors de l'évaluation des résultats de clustering ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 3. Chapitre 4

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Awesome!

Completion rate improved to 2.94

bookDétermination du Nombre Optimal de Clusters à l'Aide du Score de Silhouette

Glissez pour afficher le menu

Outre la méthode WSS, le score de silhouette constitue un autre indicateur précieux pour déterminer le nombre optimal de clusters (K) dans K-means. Il évalue dans quelle mesure chaque point de données s’intègre à son cluster par rapport aux autres.

Pour chaque point de données, le score de silhouette prend en compte :

  • Cohésion (a) : distance moyenne aux points de son propre cluster ;

  • Séparation (b) : distance moyenne aux points du cluster autre le plus proche.

Le score de silhouette se calcule ainsi : (b - a) / max(a, b), avec une plage de valeurs de -1 à +1.

Interprétation du score :

  • +1 : point bien regroupé ;

  • ~0 : point situé à la frontière du cluster ;

  • -1 : point potentiellement mal classé.

Les étapes pour trouver le K optimal à l’aide du score de silhouette sont les suivantes :

  • Exécuter K-means pour une plage de valeurs de K (par exemple, K=2 jusqu’à une limite raisonnable) ;

  • Pour chaque K, calculer le score de silhouette moyen ;

  • Tracer le score de silhouette moyen en fonction de K (silhouette plot) ;

  • Choisir le K avec le score de silhouette moyen le plus élevé.

L’examen du silhouette plot, qui affiche les scores pour chaque point, peut fournir des informations plus approfondies sur la cohérence des clusters. Des scores moyens élevés et homogènes entre les points sont souhaitables.

En résumé, tandis que la méthode WSS minimise les distances intra-cluster, le score de silhouette équilibre cohésion et séparation. L’utilisation conjointe des deux approches permet une détermination plus robuste du K optimal.

question mark

Que signifie un score de silhouette moyen élevé (proche de +1) lors de l'évaluation des résultats de clustering ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 3. Chapitre 4
some-alt