Determinación del Número Óptimo de Clústeres Utilizando la Puntuación de Silueta
Desliza para mostrar el menú
Además del método WSS, el silhouette score es otra métrica valiosa para determinar el número óptimo de clústeres (K) en K-means. Evalúa qué tan bien cada punto de datos se ajusta a su clúster en comparación con otros.
Para cada punto de datos, el silhouette score considera:
-
Cohesión (a): distancia promedio a los puntos dentro de su clúster;
-
Separación (b): distancia promedio a los puntos en el clúster más cercano.
El Silhouette Score se calcula como: (b - a) / max(a, b), con un rango de -1 a +1.
Interpretación del puntaje:
-
+1: el punto está bien agrupado;
-
~0: el punto está en el límite del clúster;
-
-1: el punto puede estar mal clasificado.
Pasos para encontrar el K óptimo usando el puntaje de silueta son los siguientes:
-
Ejecutar K-means para un rango de valores de K (por ejemplo, K=2 hasta un límite razonable);
-
Para cada K, calcular el puntaje promedio de silueta;
-
Graficar el puntaje promedio de silueta vs. K (gráfico de silueta);
-
Elegir el K con el mayor puntaje promedio de silueta.
Examinar el gráfico de silueta, que muestra los puntajes para cada punto, puede ofrecer información más profunda sobre la consistencia de los clústeres. Se desean puntajes promedio altos y puntajes consistentes entre los puntos.
En resumen, mientras que WSS minimiza las distancias dentro del clúster, el puntaje de silueta equilibra la cohesión y la separación. Usar ambos proporciona un enfoque más robusto para encontrar el K óptimo.
¡Gracias por tus comentarios!
Pregunte a AI
Pregunte a AI
Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla