Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende Determinación del Número Óptimo de Clústeres Utilizando WSS | K-Means
Análisis de Conglomerados con Python

Determinación del Número Óptimo de Clústeres Utilizando WSS

Desliza para mostrar el menú

En la agrupación K-means, determinar el número óptimo de clústeres, K, es una decisión fundamental. Elegir el valor adecuado de K es esencial para descubrir patrones significativos en los datos. Muy pocos clústeres pueden simplificar en exceso los datos, mientras que demasiados pueden crear clústeres demasiado específicos y menos útiles. Por lo tanto, los métodos que orientan la elección de K son importantes.

Una técnica popular para encontrar el valor óptimo de K es la métrica within-sum-of-squares (WSS). WSS mide la suma de las distancias al cuadrado entre cada punto de datos y su centroide asignado dentro de un clúster. En esencia, WSS indica cuán compactos son los clústeres. Valores bajos de WSS sugieren clústeres más ajustados y compactos.

Diferente número de clústeres

Para utilizar WSS para encontrar el K óptimo, normalmente se siguen estos pasos:

Ejecutar K-means para un rango de valores de K
expand arrow
  • Probar valores de K desde 1 hasta un límite razonable como 10 o 15;
Calcular WSS para cada K
expand arrow
  • Calcular la Suma de Cuadrados Dentro del Cluster (WSS) para cada valor de K;
Graficar WSS en función de K
expand arrow
  • Crear un gráfico con los valores de K en el eje x y WSS en el eje y;
  • Esto se denomina gráfico WSS o gráfico del codo;
Encontrar el punto del codo
expand arrow
  • Buscar un punto donde la curva de WSS se doble, formando un codo;
  • Este punto sugiere el número óptimo de clusters.
Note
Nota

El punto del codo en el gráfico WSS es fundamental. Representa el punto a partir del cual la disminución de WSS comienza a ralentizarse significativamente.

Este "codo" suele considerarse un fuerte indicador del K óptimo por las siguientes razones:

  • Sugiere rendimientos decrecientes: agregar más clústeres más allá del codo no conduce a una mejora sustancial en el WSS, lo que significa que los clústeres no se vuelven significativamente más compactos;

  • Equilibra granularidad y simplicidad: el codo suele representar un buen equilibrio entre capturar la estructura esencial en los datos sin sobreajustar o crear clústeres innecesariamente detallados.

Método del codo

Ten en cuenta que el método del codo es una heurística. El punto del codo puede no estar siempre claramente definido y otros factores pueden influir en la elección final de K. La inspección visual de los clústeres resultantes y tu conocimiento del dominio son complementos valiosos al método del codo.

question mark

Al utilizar el método WSS para elegir el número de clústeres en K-means, ¿qué representa típicamente el punto de codo en la gráfica de WSS?

Selecciona la respuesta correcta

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 3. Capítulo 3

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Sección 3. Capítulo 3
some-alt