Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Evaluación Externa | How to choose the best model?
course content

Contenido del Curso

Cluster Analysis

Evaluación ExternaEvaluación Externa

La evaluación externa de algoritmos de clustering es un método para evaluar el rendimiento de un algoritmo de clustering comparando sus resultados con un conjunto conocido de etiquetas de clase o ground truth. En otras palabras, los clusters del algoritmo se comparan con un conjunto de etiquetas preexistentes creadas por expertos o basadas en el conocimiento del dominio.

Métricas externas más utilizadas

El Índice de Rand (IR) mide la similitud entre dos agrupaciones o particiones y se utiliza a menudo como métrica de evaluación externa en clustering. El Índice de Rand mide el porcentaje de pares de puntos de datos asignados al mismo cluster tanto en el cluster predicho como en el verdadero, normalizado por el número total de pares de puntos de datos.

El índice de Rand se calcula del siguiente modo:

  • Sea n el número total de puntos de datos.
  • Sea a el número de pares de puntos de datos asignados al mismo conglomerado tanto en la agrupación predicha como en la verdadera.
  • Sea b el número de pares de puntos de datos asignados a conglomerados diferentes tanto en la agrupación predicha como en la verdadera.

El índice de Rand viene dado por 2*(a+b)/ (n*(n-1)).

El Índice de Rand puede variar entre 0 y 1, donde 0 indica que las dos agrupaciones son completamente diferentes, y 1 indica que las dos agrupaciones son idénticas.


La Información Mutua (IM) mide la cantidad de información compartida por los agrupamientos predichos y verdaderos basándose en el concepto de entropía. No consideraremos cómo se calcula esta métrica, ya que está fuera del alcance de este curso para principiantes.

La Información Mutua varía entre 0 y 1, donde 0 indica que la agrupación predicha es completamente diferente de la agrupación verdadera, y 1 indica que la agrupación predicha es idéntica a la agrupación verdadera. Además, basándonos en los ejemplos anteriores, podemos decir que esta métrica es mucho mejor para detectar una mala agrupación que el Índice de Rand.


La homogeneidad mide el grado en que cada cluster contiene sólo puntos de datos que pertenecen a una única clase o categoría basándose en la entropía condicional. Al igual que con la información mutua, no consideraremos el principio de cálculo de esta métrica.

Una solución de clustering se considera altamente homogénea si todos los puntos de datos que pertenecen a la misma clase o categoría verdadera se agrupan en el mismo cluster.
En otras palabras, la homogeneidad mide hasta qué punto un algoritmo de clustering asigna los puntos de datos a los clusters correctos en función de su verdadera clase o categoría. La puntuación de homogeneidad oscila entre 0 y 1, donde 1 indica una homogeneidad perfecta.

La homogeneidad es la mejor de todas las métricas consideradas: determina igual de bien una agrupación buena que una mala, como se muestra en el ejemplo anterior.

¿Podemos utilizar métricas de evaluación externas si no tenemos información sobre la partición real de los datos en clusters?

Selecciona la respuesta correcta

¿Todo estuvo claro?

Sección 3. Capítulo 2
course content

Contenido del Curso

Cluster Analysis

Evaluación ExternaEvaluación Externa

La evaluación externa de algoritmos de clustering es un método para evaluar el rendimiento de un algoritmo de clustering comparando sus resultados con un conjunto conocido de etiquetas de clase o ground truth. En otras palabras, los clusters del algoritmo se comparan con un conjunto de etiquetas preexistentes creadas por expertos o basadas en el conocimiento del dominio.

Métricas externas más utilizadas

El Índice de Rand (IR) mide la similitud entre dos agrupaciones o particiones y se utiliza a menudo como métrica de evaluación externa en clustering. El Índice de Rand mide el porcentaje de pares de puntos de datos asignados al mismo cluster tanto en el cluster predicho como en el verdadero, normalizado por el número total de pares de puntos de datos.

El índice de Rand se calcula del siguiente modo:

  • Sea n el número total de puntos de datos.
  • Sea a el número de pares de puntos de datos asignados al mismo conglomerado tanto en la agrupación predicha como en la verdadera.
  • Sea b el número de pares de puntos de datos asignados a conglomerados diferentes tanto en la agrupación predicha como en la verdadera.

El índice de Rand viene dado por 2*(a+b)/ (n*(n-1)).

El Índice de Rand puede variar entre 0 y 1, donde 0 indica que las dos agrupaciones son completamente diferentes, y 1 indica que las dos agrupaciones son idénticas.


La Información Mutua (IM) mide la cantidad de información compartida por los agrupamientos predichos y verdaderos basándose en el concepto de entropía. No consideraremos cómo se calcula esta métrica, ya que está fuera del alcance de este curso para principiantes.

La Información Mutua varía entre 0 y 1, donde 0 indica que la agrupación predicha es completamente diferente de la agrupación verdadera, y 1 indica que la agrupación predicha es idéntica a la agrupación verdadera. Además, basándonos en los ejemplos anteriores, podemos decir que esta métrica es mucho mejor para detectar una mala agrupación que el Índice de Rand.


La homogeneidad mide el grado en que cada cluster contiene sólo puntos de datos que pertenecen a una única clase o categoría basándose en la entropía condicional. Al igual que con la información mutua, no consideraremos el principio de cálculo de esta métrica.

Una solución de clustering se considera altamente homogénea si todos los puntos de datos que pertenecen a la misma clase o categoría verdadera se agrupan en el mismo cluster.
En otras palabras, la homogeneidad mide hasta qué punto un algoritmo de clustering asigna los puntos de datos a los clusters correctos en función de su verdadera clase o categoría. La puntuación de homogeneidad oscila entre 0 y 1, donde 1 indica una homogeneidad perfecta.

La homogeneidad es la mejor de todas las métricas consideradas: determina igual de bien una agrupación buena que una mala, como se muestra en el ejemplo anterior.

¿Podemos utilizar métricas de evaluación externas si no tenemos información sobre la partición real de los datos en clusters?

Selecciona la respuesta correcta

¿Todo estuvo claro?

Sección 3. Capítulo 2
some-alt