Implementación en un Conjunto de Datos Real
Después de practicar K-means con datos ficticios, ahora puedes aplicarlo a un conjunto de datos del mundo real: el conjunto de datos de vino. Los conjuntos de datos reales presentan complejidades como estructuras de clúster poco claras y escalas de características variables, lo que ofrece un desafío de agrupamiento más práctico.
Utilizarás la función datasets.load_wine() para cargar este conjunto de datos. El conjunto de datos de vino contiene varios atributos de diferentes vinos. Nuestro objetivo es ver si K-means puede descubrir clústeres que reflejen similitudes entre vinos basadas en estos atributos.
Los datos del mundo real a menudo requieren preprocesamiento. Puede ser necesario realizar escalado de características para asegurar que todas las características contribuyan por igual a los cálculos de distancia en K-means.
Para encontrar el número óptimo de clústeres, nuevamente utilizarás:
-
Método WSS: analiza el gráfico de codo para un rango de valores de K. Los codos pueden ser menos evidentes en datos reales;
-
Método de puntuación Silhouette: examina el gráfico Silhouette y los puntajes promedio para encontrar el mejor K. Los puntajes pueden ser más variables que con datos ficticios.
Las visualizaciones son clave para comprender los resultados:
-
Graficar 3 características seleccionadas en un gráfico 3D del vino nos permite inspeccionar visualmente la distribución de los datos en un espacio de características reducido, sin utilizar reducción de dimensionalidad;
-
Gráfico WSS para identificar el codo;
-
Gráfico Silhouette para la calidad de los clústeres.
Clústeres de K-means visualizados en el gráfico 3D de 3 características de los datos de vino, mostrando las asignaciones de clúster dentro de este espacio de características reducido.
¡Gracias por tus comentarios!
Pregunte a AI
Pregunte a AI
Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla
Genial!
Completion tasa mejorada a 3.23
Implementación en un Conjunto de Datos Real
Desliza para mostrar el menú
Después de practicar K-means con datos ficticios, ahora puedes aplicarlo a un conjunto de datos del mundo real: el conjunto de datos de vino. Los conjuntos de datos reales presentan complejidades como estructuras de clúster poco claras y escalas de características variables, lo que ofrece un desafío de agrupamiento más práctico.
Utilizarás la función datasets.load_wine() para cargar este conjunto de datos. El conjunto de datos de vino contiene varios atributos de diferentes vinos. Nuestro objetivo es ver si K-means puede descubrir clústeres que reflejen similitudes entre vinos basadas en estos atributos.
Los datos del mundo real a menudo requieren preprocesamiento. Puede ser necesario realizar escalado de características para asegurar que todas las características contribuyan por igual a los cálculos de distancia en K-means.
Para encontrar el número óptimo de clústeres, nuevamente utilizarás:
-
Método WSS: analiza el gráfico de codo para un rango de valores de K. Los codos pueden ser menos evidentes en datos reales;
-
Método de puntuación Silhouette: examina el gráfico Silhouette y los puntajes promedio para encontrar el mejor K. Los puntajes pueden ser más variables que con datos ficticios.
Las visualizaciones son clave para comprender los resultados:
-
Graficar 3 características seleccionadas en un gráfico 3D del vino nos permite inspeccionar visualmente la distribución de los datos en un espacio de características reducido, sin utilizar reducción de dimensionalidad;
-
Gráfico WSS para identificar el codo;
-
Gráfico Silhouette para la calidad de los clústeres.
Clústeres de K-means visualizados en el gráfico 3D de 3 características de los datos de vino, mostrando las asignaciones de clúster dentro de este espacio de características reducido.
¡Gracias por tus comentarios!