Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende ¿Cómo Funciona la Agrupación Jerárquica? | Clustering Jerárquico
Análisis de Conglomerados

book¿Cómo Funciona la Agrupación Jerárquica?

Note
Definición

El clustering jerárquico es un método de análisis de clústeres que busca construir una jerarquía de clústeres. A diferencia de K-means, no requiere que se preespecifique el número de clústeres.

El algoritmo puede comenzar con cada punto en su propio clúster y fusionarlos sucesivamente (clustering aglomerativo), o comenzar con todos los puntos en un solo clúster y dividirlos recursivamente en clústeres más pequeños (clustering divisivo).

Dado que el clustering aglomerativo es el enfoque más utilizado, nos centraremos en él.

El tipo más común de clustering jerárquico es el enfoque ascendente. El algoritmo es el siguiente:

  1. Inicialización: cada punto de datos se trata como un clúster individual;

  2. Calcular la matriz de proximidad: se calcula la distancia entre cada par de clústeres;

  3. Fusionar clústeres: los dos clústeres más cercanos se fusionan en un solo clúster;

  4. Actualizar la matriz de proximidad: se recalculan las distancias entre el nuevo clúster y todos los clústeres restantes;

  5. Repetir: los pasos 3 y 4 se repiten hasta que todos los puntos de datos se fusionan en un solo clúster.

Tipos de enlace

La proximidad entre dos clústeres se define mediante el tipo de enlace. Los métodos de enlace más comunes utilizados en el agrupamiento jerárquico son:

  • Enlace simple: la distancia entre los dos puntos más cercanos en los dos clústeres;

  • Enlace completo: la distancia entre los dos puntos más alejados en los dos clústeres;

  • Enlace promedio: la distancia promedio entre todos los pares de puntos en los dos clústeres;

  • Método de Ward: minimiza el aumento de la varianza total dentro del clúster al fusionar dos clústeres.

La elección del método de enlace puede afectar la forma y estructura de los clústeres resultantes. La experimentación y el conocimiento del dominio suelen ser útiles para seleccionar el mejor método para sus datos.

Dendrograma

Los resultados del agrupamiento jerárquico suelen visualizarse utilizando un dendrograma.

Note
Definición

Un dendrograma es un diagrama en forma de árbol que muestra la relación jerárquica entre los clústeres. La altura de las ramas en el dendrograma representa la distancia entre los clústeres.

question mark

¿Cuál es la característica principal del enfoque jerárquico ascendente (aglomerativo) en el agrupamiento jerárquico?

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 4. Capítulo 1

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Suggested prompts:

Can you explain more about how to interpret a dendrogram?

What are the advantages and disadvantages of hierarchical clustering?

How do I choose the best linkage method for my data?

Awesome!

Completion rate improved to 2.94

book¿Cómo Funciona la Agrupación Jerárquica?

Desliza para mostrar el menú

Note
Definición

El clustering jerárquico es un método de análisis de clústeres que busca construir una jerarquía de clústeres. A diferencia de K-means, no requiere que se preespecifique el número de clústeres.

El algoritmo puede comenzar con cada punto en su propio clúster y fusionarlos sucesivamente (clustering aglomerativo), o comenzar con todos los puntos en un solo clúster y dividirlos recursivamente en clústeres más pequeños (clustering divisivo).

Dado que el clustering aglomerativo es el enfoque más utilizado, nos centraremos en él.

El tipo más común de clustering jerárquico es el enfoque ascendente. El algoritmo es el siguiente:

  1. Inicialización: cada punto de datos se trata como un clúster individual;

  2. Calcular la matriz de proximidad: se calcula la distancia entre cada par de clústeres;

  3. Fusionar clústeres: los dos clústeres más cercanos se fusionan en un solo clúster;

  4. Actualizar la matriz de proximidad: se recalculan las distancias entre el nuevo clúster y todos los clústeres restantes;

  5. Repetir: los pasos 3 y 4 se repiten hasta que todos los puntos de datos se fusionan en un solo clúster.

Tipos de enlace

La proximidad entre dos clústeres se define mediante el tipo de enlace. Los métodos de enlace más comunes utilizados en el agrupamiento jerárquico son:

  • Enlace simple: la distancia entre los dos puntos más cercanos en los dos clústeres;

  • Enlace completo: la distancia entre los dos puntos más alejados en los dos clústeres;

  • Enlace promedio: la distancia promedio entre todos los pares de puntos en los dos clústeres;

  • Método de Ward: minimiza el aumento de la varianza total dentro del clúster al fusionar dos clústeres.

La elección del método de enlace puede afectar la forma y estructura de los clústeres resultantes. La experimentación y el conocimiento del dominio suelen ser útiles para seleccionar el mejor método para sus datos.

Dendrograma

Los resultados del agrupamiento jerárquico suelen visualizarse utilizando un dendrograma.

Note
Definición

Un dendrograma es un diagrama en forma de árbol que muestra la relación jerárquica entre los clústeres. La altura de las ramas en el dendrograma representa la distancia entre los clústeres.

question mark

¿Cuál es la característica principal del enfoque jerárquico ascendente (aglomerativo) en el agrupamiento jerárquico?

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 4. Capítulo 1
some-alt