Mesures d'Évaluation pour l'IA Générative

L'évaluation des modèles génératifs diffère de celle des modèles discriminatifs, qui reposent sur des métriques de précision. Étant donné que les modèles génératifs produisent de nombreux résultats valides, ils doivent être évalués selon la qualité, la diversité et la pertinence. Cette section présente les principales métriques utilisées en recherche et en industrie pour évaluer les modèles génératifs selon des dimensions perceptuelles, statistiques et centrées sur l'humain.

Évaluation des modèles basés sur l'image (GAN, VAE, Diffusion)

Les méthodes d'évaluation perceptuelle et statistique sont couramment appliquées aux modèles génératifs d'images. Elles permettent de mesurer à quel point les sorties générées sont réalistes, diversifiées et bien réparties par rapport aux images réelles.

Inception Score (IS)

Quantification de la clarté et de la diversité des images générées à l'aide de la confiance de classification d'un modèle Inception pré-entraîné.

\text{IS}=\exp(\mathbb{E}_x[D_{KL}(p(y|x)||p(y))])

où :

$p(y|x)$ est la distribution conditionnelle des étiquettes pour l'image $x$
$p(y)$ est la distribution marginale des classes.

Fréchet Inception Distance (FID)

Mesure la similarité entre les distributions d'images réelles et générées à l'aide des embeddings de caractéristiques.

\text{FID}=||\mu_r-\mu_g||^2+\text{Tr}(\Sigma_r + \Sigma_g - 2(\Sigma_r\Sigma_g)^{1/2})

où :

$\mu$ et $\Sigma$ sont la moyenne et la covariance des représentations de caractéristiques.
$\text{Tr}()$ désigne la trace d'une matrice — il s'agit de la somme des éléments diagonaux. La trace permet de quantifier la différence entre les distributions de caractéristiques en termes de dispersion ou de forme.

LPIPS

Compare la similarité visuelle entre des images en utilisant des caractéristiques extraites par des réseaux neuronaux profonds.

Évaluation des modèles basés sur le texte (Transformers, GPT, BERT)

Les modèles de génération de langage sont évalués selon la qualité, la cohérence et la pertinence à l'aide de métriques statistiques, sémantiques et subjectives.

BLEU / ROUGE / METEOR

Comparent le recouvrement des n-grammes entre le texte généré et le texte de référence.

\text{BLEU}=\text{BP} \cdot \exp\left(\sum^N_{n=1}w_n\log p_n\right)

où :

$p_n$ est la précision pour les n-grammes
$\text{BP}$ est la pénalité de brièveté.

BERTScore

Mesure la similarité sémantique à l'aide d'embeddings contextuels. Utilise la similarité cosinus entre les embeddings contextuels, avec des agrégats de précision/rappel/F1.

Fidélité au prompt

Mesure l'adéquation de la sortie par rapport aux prompts d'entrée, en particulier dans les modèles ajustés par instruction.

Remarque

Comparer manuellement les prompts aux sorties ou utiliser des modèles de score de similarité tels que CLIP ou BERT.

Évaluation des modèles multimodaux (par exemple, DALL·E, Stable Diffusion)

Les modèles multimodaux doivent être évalués pour l'alignement entre les modalités, telles que l'image et le texte.

CLIPScore

Calcule la similarité entre les embeddings d'image et les embeddings du prompt textuel.

\text{CLIPScores}=cos(f_{image},\ f_{text})

où $f$ représente les embeddings spécifiques à chaque modalité.

Fidélité Prompt-à-Image

Mesure dans quelle mesure les images générées correspondent à leurs prompts de conditionnement.

Remarque

Utiliser CLIP ou une annotation manuelle pour évaluer l'alignement visuel-textuel.

Évaluation Humaine

Malgré les progrès des métriques automatisées, l'évaluation humaine reste essentielle pour les tâches subjectives ou créatives. De nombreux résultats génératifs, notamment en art, narration ou design, nécessitent un jugement humain pour évaluer leur pertinence, originalité et attrait. Ces méthodes fournissent des informations nuancées que les métriques automatisées omettent souvent.

Tests A/B et configurations de type Turing

Demander aux utilisateurs de choisir les sorties préférées ou les plus réalistes parmi deux options.

Exemple concret : dans le pipeline RLHF de GPT-3 d'OpenAI, des travailleurs ont été exposés à plusieurs complétions générées par le modèle et devaient classer ou sélectionner celle jugée la plus utile ou réaliste. Ces retours ont directement influencé la construction des modèles de récompense pour l'affinage ultérieur.

Fidélité prompt-sortie

Évaluation subjective de la correspondance entre la sortie et le prompt donné.

Exemple concret : lors de l'entraînement RLHF pour InstructGPT, les annotateurs notaient les complétions pour un prompt tel que « Rédigez un email poli pour refuser une offre d'emploi. » Les scores humains déterminaient quelles sorties correspondaient à l'intention et au style de l'utilisateur.

Échelles de notation

Collecte de notes sur des échelles (par exemple, 1 à 5) pour le réalisme, la cohérence ou la créativité.

Exemple concret : lors des évaluations de Claude par Anthropic, les chercheurs recueillaient des notes de 1 à 5 étoiles sur l'utilité, l'honnêteté et l'innocuité des générations en dialogue, contribuant ainsi aux objectifs d'alignement du modèle.

Évaluation participative

Utiliser des plateformes comme MTurk pour recueillir des avis variés. Veiller à l'accord entre évaluateurs.

Exemple concret : Google a utilisé une évaluation participative à grande échelle pour mesurer la qualité du chatbot LaMDA selon des critères tels que la pertinence et la spécificité, en agrégeant des milliers de jugements d'utilisateurs.

Approfondir

Utiliser une combinaison d'évaluations automatiques et humaines pour obtenir une compréhension plus complète des performances du modèle génératif. L'analyse humaine permet de valider la fiabilité des métriques et d'identifier des cas d'échec subtils non détectés par les chiffres. Pour les applications critiques, combiner plusieurs évaluateurs humains et calculer la fiabilité inter-évaluateurs (par exemple, le kappa de Cohen) peut renforcer la robustesse.

Résumé

Ces stratégies d'évaluation sont indispensables pour itérer sur le développement du modèle et orienter les décisions de déploiement. La combinaison de métriques objectives et de retours humains aide les développeurs à équilibrer réalisme, créativité, diversité et adéquation avec l'intention de l'utilisateur ou les exigences de la tâche. Une évaluation efficace garantit que les modèles d'IA générative offrent non seulement de bonnes performances techniques, mais sont également adaptés aux cas d'utilisation réels et aux attentes humaines.

1. Laquelle des métriques d'évaluation suivantes est principalement utilisée pour mesurer la diversité des images générées dans les réseaux antagonistes génératifs (GAN) ?

2. Quelle est l'utilisation principale du Fréchet Inception Distance (FID) dans l'évaluation des modèles génératifs ?

3. Quelle métrique est couramment utilisée pour évaluer la similarité sémantique entre un texte généré et un texte de référence ?

Laquelle des métriques d'évaluation suivantes est principalement utilisée pour mesurer la diversité des images générées dans les réseaux antagonistes génératifs (GAN) ?

Select the correct answer

Fréchet Inception Distance (FID)

LPIPS

Inception Score (IS)

BLEU

Quelle est l'utilisation principale du Fréchet Inception Distance (FID) dans l'évaluation des modèles génératifs ?

Select the correct answer

Mesurer la clarté du texte généré par les modèles

Comparer les distributions de caractéristiques des images réelles et générées

Mesurer la similarité entre le texte et les images

Évaluer la précision des prédictions d’un modèle

Quelle métrique est couramment utilisée pour évaluer la similarité sémantique entre un texte généré et un texte de référence ?

Select the correct answer

Inception Score

BLEU

BERTScore

FID

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 3. Chapitre 3

Demandez à l'IA

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Suggested prompts:

What are the main differences between IS, FID, and LPIPS for image model evaluation?

Can you explain how human evaluation complements automated metrics?

How do I choose which evaluation metric to use for my generative model?

Awesome!

Completion rate improved to 4.76

Mesures d'Évaluation pour l'IA Générative

Glissez pour afficher le menu

Évaluation des modèles basés sur l'image (GAN, VAE, Diffusion)

Inception Score (IS)

Quantification de la clarté et de la diversité des images générées à l'aide de la confiance de classification d'un modèle Inception pré-entraîné.

\text{IS}=\exp(\mathbb{E}_x[D_{KL}(p(y|x)||p(y))])

où :

$p(y|x)$ est la distribution conditionnelle des étiquettes pour l'image $x$
$p(y)$ est la distribution marginale des classes.

Fréchet Inception Distance (FID)

Mesure la similarité entre les distributions d'images réelles et générées à l'aide des embeddings de caractéristiques.

\text{FID}=||\mu_r-\mu_g||^2+\text{Tr}(\Sigma_r + \Sigma_g - 2(\Sigma_r\Sigma_g)^{1/2})

où :

$\mu$ et $\Sigma$ sont la moyenne et la covariance des représentations de caractéristiques.
$\text{Tr}()$ désigne la trace d'une matrice — il s'agit de la somme des éléments diagonaux. La trace permet de quantifier la différence entre les distributions de caractéristiques en termes de dispersion ou de forme.

LPIPS

Compare la similarité visuelle entre des images en utilisant des caractéristiques extraites par des réseaux neuronaux profonds.

Évaluation des modèles basés sur le texte (Transformers, GPT, BERT)

Les modèles de génération de langage sont évalués selon la qualité, la cohérence et la pertinence à l'aide de métriques statistiques, sémantiques et subjectives.

BLEU / ROUGE / METEOR

Comparent le recouvrement des n-grammes entre le texte généré et le texte de référence.

\text{BLEU}=\text{BP} \cdot \exp\left(\sum^N_{n=1}w_n\log p_n\right)

où :

$p_n$ est la précision pour les n-grammes
$\text{BP}$ est la pénalité de brièveté.

BERTScore

Mesure la similarité sémantique à l'aide d'embeddings contextuels. Utilise la similarité cosinus entre les embeddings contextuels, avec des agrégats de précision/rappel/F1.

Fidélité au prompt

Mesure l'adéquation de la sortie par rapport aux prompts d'entrée, en particulier dans les modèles ajustés par instruction.

Remarque

Comparer manuellement les prompts aux sorties ou utiliser des modèles de score de similarité tels que CLIP ou BERT.

Évaluation des modèles multimodaux (par exemple, DALL·E, Stable Diffusion)

Les modèles multimodaux doivent être évalués pour l'alignement entre les modalités, telles que l'image et le texte.

CLIPScore

Calcule la similarité entre les embeddings d'image et les embeddings du prompt textuel.

\text{CLIPScores}=cos(f_{image},\ f_{text})

où $f$ représente les embeddings spécifiques à chaque modalité.

Fidélité Prompt-à-Image

Mesure dans quelle mesure les images générées correspondent à leurs prompts de conditionnement.

Remarque

Utiliser CLIP ou une annotation manuelle pour évaluer l'alignement visuel-textuel.

Évaluation Humaine

Tests A/B et configurations de type Turing

Demander aux utilisateurs de choisir les sorties préférées ou les plus réalistes parmi deux options.

Exemple concret : dans le pipeline RLHF de GPT-3 d'OpenAI, des travailleurs ont été exposés à plusieurs complétions générées par le modèle et devaient classer ou sélectionner celle jugée la plus utile ou réaliste. Ces retours ont directement influencé la construction des modèles de récompense pour l'affinage ultérieur.

Fidélité prompt-sortie

Évaluation subjective de la correspondance entre la sortie et le prompt donné.

Exemple concret : lors de l'entraînement RLHF pour InstructGPT, les annotateurs notaient les complétions pour un prompt tel que « Rédigez un email poli pour refuser une offre d'emploi. » Les scores humains déterminaient quelles sorties correspondaient à l'intention et au style de l'utilisateur.

Échelles de notation

Collecte de notes sur des échelles (par exemple, 1 à 5) pour le réalisme, la cohérence ou la créativité.

Exemple concret : lors des évaluations de Claude par Anthropic, les chercheurs recueillaient des notes de 1 à 5 étoiles sur l'utilité, l'honnêteté et l'innocuité des générations en dialogue, contribuant ainsi aux objectifs d'alignement du modèle.

Évaluation participative

Utiliser des plateformes comme MTurk pour recueillir des avis variés. Veiller à l'accord entre évaluateurs.

Exemple concret : Google a utilisé une évaluation participative à grande échelle pour mesurer la qualité du chatbot LaMDA selon des critères tels que la pertinence et la spécificité, en agrégeant des milliers de jugements d'utilisateurs.

Approfondir

Résumé

1. Laquelle des métriques d'évaluation suivantes est principalement utilisée pour mesurer la diversité des images générées dans les réseaux antagonistes génératifs (GAN) ?

2. Quelle est l'utilisation principale du Fréchet Inception Distance (FID) dans l'évaluation des modèles génératifs ?

3. Quelle métrique est couramment utilisée pour évaluer la similarité sémantique entre un texte généré et un texte de référence ?

Laquelle des métriques d'évaluation suivantes est principalement utilisée pour mesurer la diversité des images générées dans les réseaux antagonistes génératifs (GAN) ?

Select the correct answer

Fréchet Inception Distance (FID)

LPIPS

Inception Score (IS)

BLEU

Quelle est l'utilisation principale du Fréchet Inception Distance (FID) dans l'évaluation des modèles génératifs ?

Select the correct answer

Mesurer la clarté du texte généré par les modèles

Comparer les distributions de caractéristiques des images réelles et générées

Mesurer la similarité entre le texte et les images

Évaluer la précision des prédictions d’un modèle

Quelle métrique est couramment utilisée pour évaluer la similarité sémantique entre un texte généré et un texte de référence ?

Select the correct answer

Inception Score

BLEU

BERTScore

FID

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 3. Chapitre 3