Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende Implementación en un Conjunto de Datos Real | K-Means
Análisis de Conglomerados

bookImplementación en un Conjunto de Datos Real

Después de practicar K-means con datos ficticios, ahora puedes aplicarlo a un conjunto de datos del mundo real: el conjunto de datos de vinos. Los conjuntos de datos reales presentan complejidades como estructuras de clúster poco claras y escalas de características variables, lo que ofrece un desafío de agrupamiento más práctico.

Utilizarás la función datasets.load_wine() para cargar este conjunto de datos. El conjunto de datos de vinos contiene varios atributos de diferentes vinos. El objetivo es comprobar si K-means puede descubrir clústeres que reflejen similitudes entre vinos basadas en estos atributos.

Los datos reales suelen requerir preprocesamiento. Puede ser necesario el escalado de características para asegurar que todas las características contribuyan por igual a los cálculos de distancia en K-means.

Para encontrar el número óptimo de clústeres, nuevamente utilizarás:

  • Método WSS: analizar la gráfica del codo para un rango de valores de K. Los codos pueden ser menos evidentes en datos reales;

  • Método de la puntuación Silhouette: examinar la gráfica Silhouette y las puntuaciones promedio para encontrar el mejor K. Las puntuaciones pueden ser más variables que con datos ficticios.

Las visualizaciones son clave para comprender los resultados:

  • Graficar 3 características seleccionadas en un gráfico 3D del vino permite inspeccionar visualmente la distribución de los datos en un espacio de características reducido, sin utilizar reducción de dimensionalidad;

  • Gráfica WSS para identificar el codo;

  • Gráfica Silhouette para la calidad de los clústeres.

Clústeres de K-means visualizados en el gráfico 3D de 3 características del conjunto de datos de vinos, mostrando las asignaciones de clúster dentro de este espacio de características reducido.

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 3. Capítulo 6

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Awesome!

Completion rate improved to 2.94

bookImplementación en un Conjunto de Datos Real

Desliza para mostrar el menú

Después de practicar K-means con datos ficticios, ahora puedes aplicarlo a un conjunto de datos del mundo real: el conjunto de datos de vinos. Los conjuntos de datos reales presentan complejidades como estructuras de clúster poco claras y escalas de características variables, lo que ofrece un desafío de agrupamiento más práctico.

Utilizarás la función datasets.load_wine() para cargar este conjunto de datos. El conjunto de datos de vinos contiene varios atributos de diferentes vinos. El objetivo es comprobar si K-means puede descubrir clústeres que reflejen similitudes entre vinos basadas en estos atributos.

Los datos reales suelen requerir preprocesamiento. Puede ser necesario el escalado de características para asegurar que todas las características contribuyan por igual a los cálculos de distancia en K-means.

Para encontrar el número óptimo de clústeres, nuevamente utilizarás:

  • Método WSS: analizar la gráfica del codo para un rango de valores de K. Los codos pueden ser menos evidentes en datos reales;

  • Método de la puntuación Silhouette: examinar la gráfica Silhouette y las puntuaciones promedio para encontrar el mejor K. Las puntuaciones pueden ser más variables que con datos ficticios.

Las visualizaciones son clave para comprender los resultados:

  • Graficar 3 características seleccionadas en un gráfico 3D del vino permite inspeccionar visualmente la distribución de los datos en un espacio de características reducido, sin utilizar reducción de dimensionalidad;

  • Gráfica WSS para identificar el codo;

  • Gráfica Silhouette para la calidad de los clústeres.

Clústeres de K-means visualizados en el gráfico 3D de 3 características del conjunto de datos de vinos, mostrando las asignaciones de clúster dentro de este espacio de características reducido.

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 3. Capítulo 6
some-alt