Desliza para mostrar el menú

Después de practicar K-means con datos ficticios, ahora puedes aplicarlo a un conjunto de datos del mundo real: el conjunto de datos de vinos. Los conjuntos de datos reales presentan complejidades como estructuras de clúster poco claras y escalas de características variables, lo que ofrece un desafío de agrupamiento más práctico.

Utilizarás la función datasets.load_wine() para cargar este conjunto de datos. El conjunto de datos de vinos contiene varios atributos de diferentes vinos. El objetivo es comprobar si K-means puede descubrir clústeres que reflejen similitudes entre vinos basándose en estos atributos.

Los datos reales suelen requerir preprocesamiento. Puede ser necesario el escalado de características para asegurar que todas las características contribuyan por igual al cálculo de distancias en K-means.

Para encontrar el número óptimo de clústeres, nuevamente utilizarás:

Método WSS: analizar la gráfica del codo para un rango de valores de K. Los codos pueden ser menos evidentes en datos reales;
Método de la puntuación Silhouette: examinar la gráfica Silhouette y las puntuaciones promedio para encontrar el mejor K. Las puntuaciones pueden ser más variables que con datos ficticios.

Las visualizaciones son clave para comprender los resultados:

Graficar 3 características seleccionadas en un gráfico 3D del vino permite inspeccionar visualmente la distribución de los datos en un espacio de características reducido, sin utilizar reducción de dimensionalidad;
Gráfica WSS para identificar el codo;
Gráfica Silhouette para la calidad de los clústeres.

Clústeres de K-means visualizados en el gráfico 3D de 3 características del conjunto de datos de vinos, mostrando las asignaciones de clúster dentro de este espacio reducido de características.

¿Todo estuvo claro?

¡Gracias por tus comentarios!

Sección 3. Capítulo 6

Pregunte a AI

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Implementación en un Conjunto de Datos Real

Para encontrar el número óptimo de clústeres, nuevamente utilizarás:

Método WSS: analizar la gráfica del codo para un rango de valores de K. Los codos pueden ser menos evidentes en datos reales;
Método de la puntuación Silhouette: examinar la gráfica Silhouette y las puntuaciones promedio para encontrar el mejor K. Las puntuaciones pueden ser más variables que con datos ficticios.

Las visualizaciones son clave para comprender los resultados:

Graficar 3 características seleccionadas en un gráfico 3D del vino permite inspeccionar visualmente la distribución de los datos en un espacio de características reducido, sin utilizar reducción de dimensionalidad;
Gráfica WSS para identificar el codo;
Gráfica Silhouette para la calidad de los clústeres.

¿Todo estuvo claro?

¡Gracias por tus comentarios!

Sección 3. Capítulo 6