Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Détermination du Nombre Optimal de Clusters à l'Aide de la WSS | K-Means
Analyse de Clusters avec Python

Détermination du Nombre Optimal de Clusters à l'Aide de la WSS

Glissez pour afficher le menu

Dans le clustering K-means, déterminer le nombre optimal de clusters, K, est une décision cruciale. Choisir le bon K est essentiel pour révéler des motifs significatifs dans vos données. Trop peu de clusters peuvent simplifier excessivement les données, tandis qu’un nombre trop élevé peut créer des clusters trop spécifiques et moins utiles. Par conséquent, il est important d’utiliser des méthodes pour guider le choix de K.

Une technique populaire pour trouver le K optimal est la métrique within-sum-of-squares (WSS). WSS mesure la somme des distances au carré entre chaque point de données et son centroïde assigné dans un cluster. Essentiellement, WSS indique à quel point les clusters sont compacts. Des valeurs de WSS plus faibles suggèrent des clusters plus serrés et plus compacts.

Nombre de clusters différent

Pour utiliser la WSS afin de trouver le K optimal, il convient généralement de suivre les étapes suivantes :

Exécution de K-means pour différentes valeurs de K
expand arrow
  • Tester des valeurs de K allant de 1 jusqu'à une limite raisonnable comme 10 ou 15 ;
Calcul de la WSS pour chaque K
expand arrow
  • Calculer la somme des carrés intra-cluster (WSS) pour chaque valeur de K ;
Tracé de la WSS en fonction de K
expand arrow
  • Créer un graphique avec les valeurs de K sur l’axe des abscisses et la WSS sur l’axe des ordonnées ;
  • Ce graphique est appelé courbe WSS ou courbe du coude ;
Identification du point de coude
expand arrow
  • Rechercher un point où la courbe WSS fléchit, formant un coude ;
  • Ce point suggère le nombre optimal de clusters.
Note
Remarque

Le point de coude sur la courbe WSS est essentiel. Il représente le point à partir duquel la diminution de la WSS commence à ralentir significativement.

Cet "coude" est souvent considéré comme un indicateur fort du K optimal pour les raisons suivantes :

  • Il suggère des rendements décroissants : ajouter davantage de clusters au-delà du coude n'entraîne pas une amélioration substantielle du WSS, ce qui signifie que les clusters ne deviennent pas significativement plus compacts ;

  • Il équilibre granularité et simplicité : le coude représente souvent un bon compromis entre la capture de la structure essentielle des données sans surajuster ni créer des clusters inutilement trop fins.

Méthode du coude

Gardez à l'esprit que la méthode du coude est une heuristique. Le point de coude n'est pas toujours clairement défini, et d'autres facteurs peuvent influencer votre choix final de K. L'inspection visuelle des clusters obtenus ainsi que votre connaissance du domaine sont des compléments précieux à la méthode du coude.

question mark

Lors de l'utilisation de la méthode WSS pour choisir le nombre de clusters dans K-means, que représente généralement le point d'inflexion sur le graphique WSS ?

Sélectionnez la réponse correcte

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 3. Chapitre 3

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Section 3. Chapitre 3
some-alt