Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende Implementación en un Conjunto de Datos Real | Sección
Practice
Projects
Quizzes & Challenges
Cuestionarios
Challenges
/
Fundamentos del Aprendizaje No Supervisado

bookImplementación en un Conjunto de Datos Real

Después de practicar K-means con datos ficticios, ahora puedes aplicarlo a un conjunto de datos del mundo real: el conjunto de datos de vino. Los conjuntos de datos reales presentan complejidades como estructuras de clúster poco claras y escalas de características variables, lo que ofrece un desafío de agrupamiento más práctico.

Utilizarás la función datasets.load_wine() para cargar este conjunto de datos. El conjunto de datos de vino contiene varios atributos de diferentes vinos. Nuestro objetivo es ver si K-means puede descubrir clústeres que reflejen similitudes entre vinos basadas en estos atributos.

Los datos del mundo real a menudo requieren preprocesamiento. Puede ser necesario realizar escalado de características para asegurar que todas las características contribuyan por igual a los cálculos de distancia en K-means.

Para encontrar el número óptimo de clústeres, nuevamente utilizarás:

  • Método WSS: analiza el gráfico de codo para un rango de valores de K. Los codos pueden ser menos evidentes en datos reales;

  • Método de puntuación Silhouette: examina el gráfico Silhouette y los puntajes promedio para encontrar el mejor K. Los puntajes pueden ser más variables que con datos ficticios.

Las visualizaciones son clave para comprender los resultados:

  • Graficar 3 características seleccionadas en un gráfico 3D del vino nos permite inspeccionar visualmente la distribución de los datos en un espacio de características reducido, sin utilizar reducción de dimensionalidad;

  • Gráfico WSS para identificar el codo;

  • Gráfico Silhouette para la calidad de los clústeres.

Clústeres de K-means visualizados en el gráfico 3D de 3 características de los datos de vino, mostrando las asignaciones de clúster dentro de este espacio de características reducido.

question mark

¿Por qué se realiza el escalado de características antes de aplicar el agrupamiento K-means al conjunto de datos de vino?

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 1. Capítulo 12

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

bookImplementación en un Conjunto de Datos Real

Desliza para mostrar el menú

Después de practicar K-means con datos ficticios, ahora puedes aplicarlo a un conjunto de datos del mundo real: el conjunto de datos de vino. Los conjuntos de datos reales presentan complejidades como estructuras de clúster poco claras y escalas de características variables, lo que ofrece un desafío de agrupamiento más práctico.

Utilizarás la función datasets.load_wine() para cargar este conjunto de datos. El conjunto de datos de vino contiene varios atributos de diferentes vinos. Nuestro objetivo es ver si K-means puede descubrir clústeres que reflejen similitudes entre vinos basadas en estos atributos.

Los datos del mundo real a menudo requieren preprocesamiento. Puede ser necesario realizar escalado de características para asegurar que todas las características contribuyan por igual a los cálculos de distancia en K-means.

Para encontrar el número óptimo de clústeres, nuevamente utilizarás:

  • Método WSS: analiza el gráfico de codo para un rango de valores de K. Los codos pueden ser menos evidentes en datos reales;

  • Método de puntuación Silhouette: examina el gráfico Silhouette y los puntajes promedio para encontrar el mejor K. Los puntajes pueden ser más variables que con datos ficticios.

Las visualizaciones son clave para comprender los resultados:

  • Graficar 3 características seleccionadas en un gráfico 3D del vino nos permite inspeccionar visualmente la distribución de los datos en un espacio de características reducido, sin utilizar reducción de dimensionalidad;

  • Gráfico WSS para identificar el codo;

  • Gráfico Silhouette para la calidad de los clústeres.

Clústeres de K-means visualizados en el gráfico 3D de 3 características de los datos de vino, mostrando las asignaciones de clúster dentro de este espacio de características reducido.

question mark

¿Por qué se realiza el escalado de características antes de aplicar el agrupamiento K-means al conjunto de datos de vino?

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 1. Capítulo 12
some-alt