Aprende Métricas de Evaluación para IA Generativa | Construcción y Entrenamiento de Modelos Generativos

Desliza para mostrar el menú

La evaluación de modelos generativos difiere de la evaluación de modelos discriminativos, que se basan en métricas de precisión. Dado que los modelos generativos producen múltiples salidas válidas, deben evaluarse en cuanto a calidad, diversidad y relevancia. Esta sección presenta métricas clave utilizadas tanto en investigación como en la industria para evaluar modelos generativos en dimensiones perceptuales, estadísticas y centradas en el usuario.

Evaluación para modelos basados en imágenes (GANs, VAEs, Difusión)

Los métodos de evaluación perceptual y estadística se aplican comúnmente a modelos generativos basados en imágenes. Estos ayudan a medir cuán realistas, diversos y bien distribuidos son los resultados generados en comparación con imágenes reales.

Inception Score (IS)

Cuantifica tanto la claridad como la diversidad de las imágenes generadas utilizando la confianza de clasificación de un modelo Inception preentrenado.

\text{IS}=\exp(\mathbb{E}_x[D_{KL}(p(y|x)||p(y))])

donde:

$p(y|x)$ es la distribución condicional de etiquetas para la imagen $x$
$p(y)$ es la distribución marginal de clases.

Fréchet Inception Distance (FID)

Mide la similitud entre las distribuciones de imágenes reales y generadas utilizando incrustaciones de características.

\text{FID}=||\mu_r-\mu_g||^2+\text{Tr}(\Sigma_r + \Sigma_g - 2(\Sigma_r\Sigma_g)^{1/2})

donde:

$\mu$ y $\Sigma$ son la media y la covarianza de las representaciones de características.
$\text{Tr}()$ representa la traza de una matriz — es la suma de los elementos diagonales. La traza ayuda a cuantificar cuán diferentes son las distribuciones de características en términos de su dispersión o forma.

LPIPS

Compara la similitud visual entre imágenes utilizando características de redes neuronales profundas.

Evaluación para modelos basados en texto (Transformers, GPT, BERT)

Los modelos de generación de lenguaje se evalúan en cuanto a calidad, coherencia y relevancia mediante métricas estadísticas, semánticas y subjetivas.

BLEU / ROUGE / METEOR

Comparan la coincidencia de n-gramas entre el texto generado y el de referencia.

\text{BLEU}=\text{BP} \cdot \exp\left(\sum^N_{n=1}w_n\log p_n\right)

donde:

$p_n$ es la precisión para n-gramas
$\text{BP}$ es la penalización por brevedad.

BERTScore

Mide la similitud semántica utilizando incrustaciones contextuales. Utiliza la similitud coseno entre incrustaciones contextuales, con agregados de precisión/recuperación/F1.

Fidelidad al Prompt

Mide la adherencia de la salida a los prompts de entrada, especialmente en modelos ajustados por instrucciones.

Nota

Comparación manual de prompts y salidas o uso de modelos de puntuación de similitud como CLIP o BERT.

Evaluación para Modelos Multimodales (por ejemplo, DALL·E, Stable Diffusion)

Los modelos multimodales deben evaluarse por la alineación entre modalidades, como imagen y texto.

CLIPScore

Calcula la similitud entre las incrustaciones de imágenes y las incrustaciones del prompt textual.

\text{CLIPScores}=cos(f_{image},\ f_{text})

donde $f$ son incrustaciones específicas de cada modalidad.

Fidelidad de la imagen al prompt

Mide qué tan bien las imágenes generadas coinciden con sus prompts de condicionamiento.

Nota

Utilizar CLIP o anotación manual para evaluar la alineación visual-textual.

Evaluación humana

A pesar de los avances en métricas automatizadas, la evaluación humana sigue siendo esencial para tareas subjetivas o creativas. Muchos resultados generativos, especialmente en arte, narrativa o diseño, requieren juicio humano para valorar su significado, originalidad y atractivo. Estos métodos proporcionan perspectivas matizadas que las métricas automatizadas suelen pasar por alto.

Pruebas A/B y Configuraciones Estilo Turing

Solicitar a los usuarios que elijan las salidas preferidas o más realistas entre dos opciones.

Ejemplo del mundo real: en el proceso RLHF de GPT-3 de OpenAI, se mostraba a trabajadores externos múltiples completaciones del modelo y se les pedía clasificar o seleccionar la más útil o realista. Esta retroalimentación dio forma directa a los modelos de recompensa para un ajuste fino posterior.

Fidelidad de la Salida al Prompt

Evaluación subjetiva de qué tan bien la salida refleja el prompt dado.

Ejemplo del mundo real: durante el entrenamiento RLHF para InstructGPT, los anotadores calificaron las completaciones para un prompt como "Escribe un correo educado rechazando una oferta de trabajo." Las puntuaciones humanas determinaron qué salidas se alineaban con la intención y el estilo del usuario.

Escalas de Calificación

Recopilar calificaciones en escalas (por ejemplo, 1–5) para realismo, coherencia o creatividad.

Ejemplo del mundo real: en las evaluaciones de Claude de Anthropic, los investigadores recopilaron calificaciones de 1 a 5 estrellas sobre utilidad, honestidad e inocuidad para las generaciones en diálogo, apoyando los objetivos de alineación del modelo.

Evaluación mediante Multitudes

Utilizar plataformas como MTurk para recopilar opiniones diversas. Garantizar el acuerdo entre evaluadores.

Ejemplo del mundo real: Google empleó la evaluación a gran escala mediante multitudes para valorar la calidad del chatbot LaMDA en dimensiones como coherencia y especificidad, agregando miles de juicios de usuarios.

Estudiar más

Utilizar una combinación de evaluaciones automáticas y centradas en humanos para obtener una comprensión más completa del rendimiento de los modelos generativos. La perspectiva humana ayuda a validar la fiabilidad de las métricas e identificar casos sutiles de fallo que no se reflejan en los números. Para aplicaciones críticas, combinar múltiples evaluadores humanos y calcular la fiabilidad entre evaluadores (por ejemplo, kappa de Cohen) puede mejorar la robustez.

Resumen

Estas estrategias de evaluación son indispensables para iterar en el desarrollo del modelo y guiar las decisiones de despliegue. La combinación de métricas objetivas con retroalimentación humana ayuda a los desarrolladores a equilibrar realismo, creatividad, diversidad y alineación con la intención del usuario o los requisitos de la tarea. Una evaluación eficaz garantiza que los modelos de IA generativa no solo tengan un buen desempeño técnico, sino que también se alineen con casos de uso reales y expectativas humanas.