Contenido del Curso
Cluster Analysis
1. ¿Qué es el Clustering?
3. ¿Cómo elegir el mejor modelo?
Cluster Analysis
Evaluación Externa
La evaluación externa de algoritmos de clustering es un método para evaluar el rendimiento de un algoritmo de clustering comparando sus resultados con un conjunto conocido de etiquetas de clase o ground truth. En otras palabras, los clusters del algoritmo se comparan con un conjunto de etiquetas preexistentes creadas por expertos o basadas en el conocimiento del dominio.
Métricas externas más utilizadas
El Índice de Rand (IR) mide la similitud entre dos agrupaciones o particiones y se utiliza a menudo como métrica de evaluación externa en clustering. El Índice de Rand mide el porcentaje de pares de puntos de datos asignados al mismo cluster tanto en el cluster predicho como en el verdadero, normalizado por el número total de pares de puntos de datos.
El índice de Rand se calcula del siguiente modo:
- Sea n el número total de puntos de datos.
- Sea a el número de pares de puntos de datos asignados al mismo conglomerado tanto en la agrupación predicha como en la verdadera.
- Sea b el número de pares de puntos de datos asignados a conglomerados diferentes tanto en la agrupación predicha como en la verdadera.
El índice de Rand viene dado por 2*(a+b)/ (n*(n-1)).
El Índice de Rand puede variar entre 0 y 1, donde 0 indica que las dos agrupaciones son completamente diferentes, y 1 indica que las dos agrupaciones son idénticas.
La Información Mutua (IM) mide la cantidad de información compartida por los agrupamientos predichos y verdaderos basándose en el concepto de entropía. No consideraremos cómo se calcula esta métrica, ya que está fuera del alcance de este curso para principiantes.
La Información Mutua varía entre 0 y 1, donde 0 indica que la agrupación predicha es completamente diferente de la agrupación verdadera, y 1 indica que la agrupación predicha es idéntica a la agrupación verdadera. Además, basándonos en los ejemplos anteriores, podemos decir que esta métrica es mucho mejor para detectar una mala agrupación que el Índice de Rand.
La homogeneidad mide el grado en que cada cluster contiene sólo puntos de datos que pertenecen a una única clase o categoría basándose en la entropía condicional. Al igual que con la información mutua, no consideraremos el principio de cálculo de esta métrica.
Una solución de clustering se considera altamente homogénea si todos los puntos de datos que pertenecen a la misma clase o categoría verdadera se agrupan en el mismo cluster.
En otras palabras, la homogeneidad mide hasta qué punto un algoritmo de clustering asigna los puntos de datos a los clusters correctos en función de su verdadera clase o categoría. La puntuación de homogeneidad oscila entre 0 y 1, donde 1 indica una homogeneidad perfecta.
La homogeneidad es la mejor de todas las métricas consideradas: determina igual de bien una agrupación buena que una mala, como se muestra en el ejemplo anterior.
¿Todo estuvo claro?
Contenido del Curso
Cluster Analysis
1. ¿Qué es el Clustering?
3. ¿Cómo elegir el mejor modelo?
Cluster Analysis
Evaluación Externa
La evaluación externa de algoritmos de clustering es un método para evaluar el rendimiento de un algoritmo de clustering comparando sus resultados con un conjunto conocido de etiquetas de clase o ground truth. En otras palabras, los clusters del algoritmo se comparan con un conjunto de etiquetas preexistentes creadas por expertos o basadas en el conocimiento del dominio.
Métricas externas más utilizadas
El Índice de Rand (IR) mide la similitud entre dos agrupaciones o particiones y se utiliza a menudo como métrica de evaluación externa en clustering. El Índice de Rand mide el porcentaje de pares de puntos de datos asignados al mismo cluster tanto en el cluster predicho como en el verdadero, normalizado por el número total de pares de puntos de datos.
El índice de Rand se calcula del siguiente modo:
- Sea n el número total de puntos de datos.
- Sea a el número de pares de puntos de datos asignados al mismo conglomerado tanto en la agrupación predicha como en la verdadera.
- Sea b el número de pares de puntos de datos asignados a conglomerados diferentes tanto en la agrupación predicha como en la verdadera.
El índice de Rand viene dado por 2*(a+b)/ (n*(n-1)).
El Índice de Rand puede variar entre 0 y 1, donde 0 indica que las dos agrupaciones son completamente diferentes, y 1 indica que las dos agrupaciones son idénticas.
La Información Mutua (IM) mide la cantidad de información compartida por los agrupamientos predichos y verdaderos basándose en el concepto de entropía. No consideraremos cómo se calcula esta métrica, ya que está fuera del alcance de este curso para principiantes.
La Información Mutua varía entre 0 y 1, donde 0 indica que la agrupación predicha es completamente diferente de la agrupación verdadera, y 1 indica que la agrupación predicha es idéntica a la agrupación verdadera. Además, basándonos en los ejemplos anteriores, podemos decir que esta métrica es mucho mejor para detectar una mala agrupación que el Índice de Rand.
La homogeneidad mide el grado en que cada cluster contiene sólo puntos de datos que pertenecen a una única clase o categoría basándose en la entropía condicional. Al igual que con la información mutua, no consideraremos el principio de cálculo de esta métrica.
Una solución de clustering se considera altamente homogénea si todos los puntos de datos que pertenecen a la misma clase o categoría verdadera se agrupan en el mismo cluster.
En otras palabras, la homogeneidad mide hasta qué punto un algoritmo de clustering asigna los puntos de datos a los clusters correctos en función de su verdadera clase o categoría. La puntuación de homogeneidad oscila entre 0 y 1, donde 1 indica una homogeneidad perfecta.
La homogeneidad es la mejor de todas las métricas consideradas: determina igual de bien una agrupación buena que una mala, como se muestra en el ejemplo anterior.
¿Todo estuvo claro?