Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende Implementación en un Conjunto de Datos Real | K-Means
Análisis de Conglomerados

bookImplementación en un Conjunto de Datos Real

Después de practicar K-means con datos ficticios, ahora puedes aplicarlo a un conjunto de datos del mundo real: el conjunto de datos de vino. Los conjuntos de datos reales presentan complejidades como estructuras de clúster poco claras y escalas de características variables, lo que ofrece un desafío de agrupamiento más práctico.

Utilizarás la función datasets.load_wine() para cargar este conjunto de datos. El conjunto de datos de vino contiene varios atributos de diferentes vinos. Nuestro objetivo es comprobar si K-means puede descubrir clústeres que reflejen similitudes entre vinos basadas en estos atributos.

Los datos reales suelen requerir preprocesamiento. Puede ser necesario el escalado de características para asegurar que todas las características contribuyan por igual a los cálculos de distancia en K-means.

Para encontrar el número óptimo de clústeres, nuevamente utilizarás:

  • Método WSS: analiza el gráfico de codo para un rango de valores de K. Los codos pueden ser menos evidentes en datos reales;

  • Método de la puntuación Silhouette: examina el gráfico Silhouette y las puntuaciones promedio para encontrar el mejor K. Las puntuaciones pueden ser más variables que con datos ficticios.

Las visualizaciones son clave para comprender los resultados:

  • Graficar 3 características seleccionadas en un gráfico 3D del vino permite inspeccionar visualmente la distribución de los datos en un espacio de características reducido, sin utilizar reducción de dimensionalidad;

  • Gráfico WSS para identificar el codo;

  • Gráfico Silhouette para la calidad de los clústeres.

Los clústeres de K-means visualizados en el gráfico 3D de 3 características de los datos de vino, mostrando las asignaciones de clúster dentro de este espacio de características reducido.

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 3. Capítulo 6

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Awesome!

Completion rate improved to 2.94

bookImplementación en un Conjunto de Datos Real

Desliza para mostrar el menú

Después de practicar K-means con datos ficticios, ahora puedes aplicarlo a un conjunto de datos del mundo real: el conjunto de datos de vino. Los conjuntos de datos reales presentan complejidades como estructuras de clúster poco claras y escalas de características variables, lo que ofrece un desafío de agrupamiento más práctico.

Utilizarás la función datasets.load_wine() para cargar este conjunto de datos. El conjunto de datos de vino contiene varios atributos de diferentes vinos. Nuestro objetivo es comprobar si K-means puede descubrir clústeres que reflejen similitudes entre vinos basadas en estos atributos.

Los datos reales suelen requerir preprocesamiento. Puede ser necesario el escalado de características para asegurar que todas las características contribuyan por igual a los cálculos de distancia en K-means.

Para encontrar el número óptimo de clústeres, nuevamente utilizarás:

  • Método WSS: analiza el gráfico de codo para un rango de valores de K. Los codos pueden ser menos evidentes en datos reales;

  • Método de la puntuación Silhouette: examina el gráfico Silhouette y las puntuaciones promedio para encontrar el mejor K. Las puntuaciones pueden ser más variables que con datos ficticios.

Las visualizaciones son clave para comprender los resultados:

  • Graficar 3 características seleccionadas en un gráfico 3D del vino permite inspeccionar visualmente la distribución de los datos en un espacio de características reducido, sin utilizar reducción de dimensionalidad;

  • Gráfico WSS para identificar el codo;

  • Gráfico Silhouette para la calidad de los clústeres.

Los clústeres de K-means visualizados en el gráfico 3D de 3 características de los datos de vino, mostrando las asignaciones de clúster dentro de este espacio de características reducido.

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 3. Capítulo 6
some-alt