Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Determinando o Número Ideal de Clusters Usando WSS | K-Means
Análise de Clusters com Python

Determinando o Número Ideal de Clusters Usando WSS

Deslize para mostrar o menu

Na clusterização K-means, determinar o número ideal de clusters, K, é uma decisão fundamental. Escolher o K correto é essencial para revelar padrões significativos nos dados. Poucos clusters podem simplificar demais os dados, enquanto muitos podem criar clusters excessivamente específicos e menos úteis. Portanto, métodos para orientar a escolha de K são importantes.

Uma técnica popular para encontrar o K ideal é a métrica within-sum-of-squares (WSS). O WSS mede a soma das distâncias quadráticas entre cada ponto de dado e seu centróide atribuído dentro de um cluster. Essencialmente, o WSS indica o quão compactos são os clusters. Valores menores de WSS sugerem clusters mais justos e compactos.

Número diferente de clusters

Para utilizar o WSS para encontrar o K ótimo, normalmente seguem-se estes passos:

Executar K-means para uma faixa de valores de K
expand arrow
  • Testar valores de K de 1 até um limite razoável, como 10 ou 15;
Calcular o WSS para cada K
expand arrow
  • Calcular o Within-Cluster Sum of Squares (WSS) para cada valor de K;
Plotar o WSS em função de K
expand arrow
  • Criar um gráfico com os valores de K no eixo x e o WSS no eixo y;
  • Este gráfico é chamado de gráfico WSS ou gráfico do cotovelo;
Encontrar o ponto de cotovelo
expand arrow
  • Procurar um ponto onde a curva do WSS se dobra, formando um cotovelo;
  • Este ponto sugere o número ótimo de clusters.
Note
Nota

O ponto de cotovelo no gráfico WSS é fundamental. Ele representa o ponto a partir do qual a redução do WSS começa a diminuir significativamente.

Esse "cotovelo" é frequentemente considerado um forte indicador do K ótimo pelos seguintes motivos:

  • Sugere retornos decrescentes: adicionar mais clusters além do cotovelo não resulta em uma melhora substancial no WSS, ou seja, os clusters não ficam significativamente mais compactos;

  • Equilibra granularidade e simplicidade: o cotovelo geralmente representa um bom equilíbrio entre capturar a estrutura essencial dos dados sem overfitting ou criar clusters desnecessariamente detalhados.

Método do cotovelo

Lembre-se de que o método do cotovelo é uma heurística. O ponto do cotovelo pode nem sempre ser claramente definido, e outros fatores podem influenciar a escolha final de K. Inspeção visual dos clusters resultantes e seu conhecimento de domínio são complementos valiosos ao método do cotovelo.

question mark

Ao usar o método WSS para escolher o número de clusters no K-means, o que o ponto de cotovelo no gráfico WSS normalmente representa?

Selecione a resposta correta

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 3. Capítulo 3

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Seção 3. Capítulo 3
some-alt