Implementación en un Conjunto de Datos Ficticio
Desliza para mostrar el menú
Como es habitual, utilizarás las siguientes bibliotecas:
-
sklearnpara generar datos ficticios e implementar el clustering jerárquico (AgglomerativeClustering); -
scipypara generar y trabajar con el dendrograma; -
matplotlibpara visualizar los clústeres y el dendrograma; -
numpypara operaciones numéricas.
Generación de datos ficticios
Puedes utilizar la función make_blobs() de scikit-learn para generar conjuntos de datos con diferentes cantidades de clústeres y distintos grados de separación. Esto te permitirá observar cómo se comporta el clustering jerárquico en diferentes escenarios.
El algoritmo general es el siguiente:
-
Instanciación del objeto
AgglomerativeClustering, especificando el método de enlace y otros parámetros; -
Ajuste del modelo a los datos;
-
Extracción de etiquetas de clúster si se decide un número específico de clústeres;
-
Visualización de los clústeres (si los datos son 2D o 3D) utilizando gráficos de dispersión;
-
Uso de
linkagede SciPy para crear la matriz de enlace y luego dendrogram para visualizar el dendrograma.
También es posible experimentar con diferentes métodos de enlace (por ejemplo, single, complete, average, Ward's) y observar cómo afectan los resultados del agrupamiento y la estructura del dendrograma.
¡Gracias por tus comentarios!
Pregunte a AI
Pregunte a AI
Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla