Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Impara Metriche di Valutazione per l'IA Generativa | Costruzione e Addestramento di Modelli Generativi
AI Generativa

bookMetriche di Valutazione per l'IA Generativa

La valutazione dei modelli generativi si differenzia da quella dei modelli discriminativi, che si basano su metriche di accuratezza. Poiché i modelli generativi producono molteplici output validi, devono essere valutati in termini di qualità, diversità e rilevanza. Questa sezione introduce le principali metriche utilizzate sia nella ricerca che nell'industria per valutare i modelli generativi secondo dimensioni percettive, statistiche e centrate sull'utente.

Valutazione per modelli basati su immagini (GAN, VAE, Diffusion)

I metodi di valutazione percettiva e statistica sono comunemente applicati ai modelli generativi basati su immagini. Questi aiutano a misurare quanto gli output generati siano realistici, diversificati e ben distribuiti rispetto alle immagini reali.

Inception Score (IS)

Quantifica sia la chiarezza che la diversità delle immagini generate utilizzando la confidenza di classificazione di un modello Inception pre-addestrato.

IS=exp(Ex[DKL(p(yx)p(y))])\text{IS}=\exp(\mathbb{E}_x[D_{KL}(p(y|x)||p(y))])

dove:

  • p(yx)p(y|x) è la distribuzione condizionale delle etichette per l'immagine xx
  • p(y)p(y) è la distribuzione marginale delle classi.

Fréchet Inception Distance (FID)

Misura la similarità tra le distribuzioni di immagini reali e generate utilizzando gli embedding delle feature.

FID=μrμg2+Tr(Σr+Σg2(ΣrΣg)1/2)\text{FID}=||\mu_r-\mu_g||^2+\text{Tr}(\Sigma_r + \Sigma_g - 2(\Sigma_r\Sigma_g)^{1/2})

dove:

  • μ\mu e Σ\Sigma sono la media e la covarianza delle rappresentazioni delle feature.
  • Tr()\text{Tr}() indica la traccia di una matrice — è la somma degli elementi diagonali. La traccia aiuta a quantificare quanto le distribuzioni delle feature differiscano in termini di ampiezza o forma.

LPIPS

Confronta la somiglianza visiva tra immagini utilizzando caratteristiche di reti neurali profonde.

Valutazione per modelli basati su testo (Transformers, GPT, BERT)

I modelli di generazione del linguaggio vengono valutati per qualità, coerenza e rilevanza tramite metriche statistiche, semantiche e soggettive.

BLEU / ROUGE / METEOR

Confrontano la sovrapposizione di n-grammi tra il testo generato e quello di riferimento.

BLEU=BPexp(n=1Nwnlogpn)\text{BLEU}=\text{BP} \cdot \exp\left(\sum^N_{n=1}w_n\log p_n\right)

dove:

  • pnp_n è la precisione per gli n-grammi
  • BP\text{BP} è la penalità di brevità.

BERTScore

Misura la similarità semantica utilizzando embedding contestuali. Utilizza la similarità coseno tra embedding contestuali, con aggregazioni di precisione/recall/F1.

Fedeltà al Prompt

Misura l'aderenza dell'output ai prompt di input, specialmente nei modelli ottimizzati per le istruzioni.

Note
Nota

Confronto manuale tra prompt e output oppure utilizzo di modelli di valutazione della similarità come CLIP o BERT.

Valutazione per Modelli Multimodali (ad es. DALL·E, Stable Diffusion)

I modelli multimodali devono essere valutati per l'allineamento tra le modalità, come immagine e testo.

CLIPScore

Calcola la similarità tra gli embedding delle immagini e quelli dei prompt testuali.

CLIPScores=cos(fimage, ftext)\text{CLIPScores}=cos(f_{image},\ f_{text})

dove ff sono embedding specifici per ciascuna modalità.

Fedeltà Prompt-immagine

Misura quanto bene le immagini generate corrispondano ai prompt di condizionamento.

Note
Nota

Utilizzare CLIP o annotazione manuale per valutare l'allineamento visivo-testuale.

Valutazione Umana

Nonostante i progressi nelle metriche automatizzate, la valutazione umana rimane essenziale per compiti soggettivi o creativi. Molti output generativi, specialmente in arte, narrazione o design, richiedono il giudizio umano per valutarne il significato, l'originalità e l'attrattiva. Questi metodi forniscono approfondimenti sfumati che spesso sfuggono alle metriche automatizzate.

Test A/B e Configurazioni in Stile Turing

Richiedere agli utenti di scegliere tra due opzioni quella preferita o che appare più realistica.

  • Esempio Reale: nella pipeline RLHF di GPT-3 di OpenAI, ai crowdworker venivano mostrate più completamenti del modello e veniva chiesto di classificare o selezionare quello più utile o realistico. Questo feedback ha influenzato direttamente i modelli di ricompensa per ulteriori fasi di fine-tuning.

Fedeltà Prompt-Output

Valutazione soggettiva di quanto bene l'output rifletta il prompt fornito.

  • Esempio Reale: durante l'addestramento RLHF per InstructGPT, gli annotatori valutavano i completamenti per un prompt come "Scrivi una email cortese per rifiutare un'offerta di lavoro." I punteggi umani determinavano quali output erano allineati con l'intento e lo stile dell'utente.

Scale di Valutazione

Raccolta di valutazioni su scale (ad esempio, da 1 a 5) per realismo, coerenza o creatività.

  • Esempio Reale: nelle valutazioni di Claude di Anthropic, i ricercatori raccoglievano valutazioni da 1 a 5 stelle su utilità, onestà e innocuità delle generazioni nei dialoghi, supportando gli obiettivi di allineamento del modello.

Valutazione tramite Crowdsourcing

Utilizzo di piattaforme come MTurk per raccogliere opinioni diversificate. Garantire l'accordo tra i valutatori.

  • Esempio reale: Google ha utilizzato il crowdsourcing su larga scala per valutare la qualità del chatbot LaMDA su dimensioni come la sensatezza e la specificità, aggregando migliaia di giudizi degli utenti.
Note
Approfondisci

Utilizzare una combinazione di valutazioni automatiche e umane per ottenere una comprensione più completa delle prestazioni del modello generativo. L'intuizione umana aiuta a validare l'affidabilità delle metriche e a identificare casi di errore sottili non rilevati dai numeri. Per applicazioni critiche, combinare più valutatori umani e calcolare l'affidabilità inter-valutatore (ad esempio, kappa di Cohen) può migliorare la robustezza.

Riepilogo

Queste strategie di valutazione sono indispensabili per iterare nello sviluppo del modello e guidare le decisioni di distribuzione. Combinare metriche oggettive con feedback umano aiuta gli sviluppatori a bilanciare realismo, creatività, diversità e allineamento con l'intento dell'utente o i requisiti del compito. Una valutazione efficace garantisce che i modelli di intelligenza artificiale generativa non solo funzionino tecnicamente bene, ma siano anche allineati con casi d'uso reali e aspettative umane.

1. Quale delle seguenti metriche di valutazione viene utilizzata principalmente per misurare la diversità delle immagini generate nelle Generative Adversarial Networks (GAN)?

2. Qual è l'uso principale del Fréchet Inception Distance (FID) nella valutazione dei modelli generativi?

3. Quale metrica viene comunemente utilizzata per valutare la similarità semantica tra testo generato e testo di riferimento?

question mark

Quale delle seguenti metriche di valutazione viene utilizzata principalmente per misurare la diversità delle immagini generate nelle Generative Adversarial Networks (GAN)?

Select the correct answer

question mark

Qual è l'uso principale del Fréchet Inception Distance (FID) nella valutazione dei modelli generativi?

Select the correct answer

question mark

Quale metrica viene comunemente utilizzata per valutare la similarità semantica tra testo generato e testo di riferimento?

Select the correct answer

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 3. Capitolo 3

Chieda ad AI

expand

Chieda ad AI

ChatGPT

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Suggested prompts:

What are the main differences between IS, FID, and LPIPS for image model evaluation?

Can you explain how human evaluation complements automated metrics?

How do I choose which evaluation metric to use for my generative model?

Awesome!

Completion rate improved to 4.76

bookMetriche di Valutazione per l'IA Generativa

Scorri per mostrare il menu

La valutazione dei modelli generativi si differenzia da quella dei modelli discriminativi, che si basano su metriche di accuratezza. Poiché i modelli generativi producono molteplici output validi, devono essere valutati in termini di qualità, diversità e rilevanza. Questa sezione introduce le principali metriche utilizzate sia nella ricerca che nell'industria per valutare i modelli generativi secondo dimensioni percettive, statistiche e centrate sull'utente.

Valutazione per modelli basati su immagini (GAN, VAE, Diffusion)

I metodi di valutazione percettiva e statistica sono comunemente applicati ai modelli generativi basati su immagini. Questi aiutano a misurare quanto gli output generati siano realistici, diversificati e ben distribuiti rispetto alle immagini reali.

Inception Score (IS)

Quantifica sia la chiarezza che la diversità delle immagini generate utilizzando la confidenza di classificazione di un modello Inception pre-addestrato.

IS=exp(Ex[DKL(p(yx)p(y))])\text{IS}=\exp(\mathbb{E}_x[D_{KL}(p(y|x)||p(y))])

dove:

  • p(yx)p(y|x) è la distribuzione condizionale delle etichette per l'immagine xx
  • p(y)p(y) è la distribuzione marginale delle classi.

Fréchet Inception Distance (FID)

Misura la similarità tra le distribuzioni di immagini reali e generate utilizzando gli embedding delle feature.

FID=μrμg2+Tr(Σr+Σg2(ΣrΣg)1/2)\text{FID}=||\mu_r-\mu_g||^2+\text{Tr}(\Sigma_r + \Sigma_g - 2(\Sigma_r\Sigma_g)^{1/2})

dove:

  • μ\mu e Σ\Sigma sono la media e la covarianza delle rappresentazioni delle feature.
  • Tr()\text{Tr}() indica la traccia di una matrice — è la somma degli elementi diagonali. La traccia aiuta a quantificare quanto le distribuzioni delle feature differiscano in termini di ampiezza o forma.

LPIPS

Confronta la somiglianza visiva tra immagini utilizzando caratteristiche di reti neurali profonde.

Valutazione per modelli basati su testo (Transformers, GPT, BERT)

I modelli di generazione del linguaggio vengono valutati per qualità, coerenza e rilevanza tramite metriche statistiche, semantiche e soggettive.

BLEU / ROUGE / METEOR

Confrontano la sovrapposizione di n-grammi tra il testo generato e quello di riferimento.

BLEU=BPexp(n=1Nwnlogpn)\text{BLEU}=\text{BP} \cdot \exp\left(\sum^N_{n=1}w_n\log p_n\right)

dove:

  • pnp_n è la precisione per gli n-grammi
  • BP\text{BP} è la penalità di brevità.

BERTScore

Misura la similarità semantica utilizzando embedding contestuali. Utilizza la similarità coseno tra embedding contestuali, con aggregazioni di precisione/recall/F1.

Fedeltà al Prompt

Misura l'aderenza dell'output ai prompt di input, specialmente nei modelli ottimizzati per le istruzioni.

Note
Nota

Confronto manuale tra prompt e output oppure utilizzo di modelli di valutazione della similarità come CLIP o BERT.

Valutazione per Modelli Multimodali (ad es. DALL·E, Stable Diffusion)

I modelli multimodali devono essere valutati per l'allineamento tra le modalità, come immagine e testo.

CLIPScore

Calcola la similarità tra gli embedding delle immagini e quelli dei prompt testuali.

CLIPScores=cos(fimage, ftext)\text{CLIPScores}=cos(f_{image},\ f_{text})

dove ff sono embedding specifici per ciascuna modalità.

Fedeltà Prompt-immagine

Misura quanto bene le immagini generate corrispondano ai prompt di condizionamento.

Note
Nota

Utilizzare CLIP o annotazione manuale per valutare l'allineamento visivo-testuale.

Valutazione Umana

Nonostante i progressi nelle metriche automatizzate, la valutazione umana rimane essenziale per compiti soggettivi o creativi. Molti output generativi, specialmente in arte, narrazione o design, richiedono il giudizio umano per valutarne il significato, l'originalità e l'attrattiva. Questi metodi forniscono approfondimenti sfumati che spesso sfuggono alle metriche automatizzate.

Test A/B e Configurazioni in Stile Turing

Richiedere agli utenti di scegliere tra due opzioni quella preferita o che appare più realistica.

  • Esempio Reale: nella pipeline RLHF di GPT-3 di OpenAI, ai crowdworker venivano mostrate più completamenti del modello e veniva chiesto di classificare o selezionare quello più utile o realistico. Questo feedback ha influenzato direttamente i modelli di ricompensa per ulteriori fasi di fine-tuning.

Fedeltà Prompt-Output

Valutazione soggettiva di quanto bene l'output rifletta il prompt fornito.

  • Esempio Reale: durante l'addestramento RLHF per InstructGPT, gli annotatori valutavano i completamenti per un prompt come "Scrivi una email cortese per rifiutare un'offerta di lavoro." I punteggi umani determinavano quali output erano allineati con l'intento e lo stile dell'utente.

Scale di Valutazione

Raccolta di valutazioni su scale (ad esempio, da 1 a 5) per realismo, coerenza o creatività.

  • Esempio Reale: nelle valutazioni di Claude di Anthropic, i ricercatori raccoglievano valutazioni da 1 a 5 stelle su utilità, onestà e innocuità delle generazioni nei dialoghi, supportando gli obiettivi di allineamento del modello.

Valutazione tramite Crowdsourcing

Utilizzo di piattaforme come MTurk per raccogliere opinioni diversificate. Garantire l'accordo tra i valutatori.

  • Esempio reale: Google ha utilizzato il crowdsourcing su larga scala per valutare la qualità del chatbot LaMDA su dimensioni come la sensatezza e la specificità, aggregando migliaia di giudizi degli utenti.
Note
Approfondisci

Utilizzare una combinazione di valutazioni automatiche e umane per ottenere una comprensione più completa delle prestazioni del modello generativo. L'intuizione umana aiuta a validare l'affidabilità delle metriche e a identificare casi di errore sottili non rilevati dai numeri. Per applicazioni critiche, combinare più valutatori umani e calcolare l'affidabilità inter-valutatore (ad esempio, kappa di Cohen) può migliorare la robustezza.

Riepilogo

Queste strategie di valutazione sono indispensabili per iterare nello sviluppo del modello e guidare le decisioni di distribuzione. Combinare metriche oggettive con feedback umano aiuta gli sviluppatori a bilanciare realismo, creatività, diversità e allineamento con l'intento dell'utente o i requisiti del compito. Una valutazione efficace garantisce che i modelli di intelligenza artificiale generativa non solo funzionino tecnicamente bene, ma siano anche allineati con casi d'uso reali e aspettative umane.

1. Quale delle seguenti metriche di valutazione viene utilizzata principalmente per misurare la diversità delle immagini generate nelle Generative Adversarial Networks (GAN)?

2. Qual è l'uso principale del Fréchet Inception Distance (FID) nella valutazione dei modelli generativi?

3. Quale metrica viene comunemente utilizzata per valutare la similarità semantica tra testo generato e testo di riferimento?

question mark

Quale delle seguenti metriche di valutazione viene utilizzata principalmente per misurare la diversità delle immagini generate nelle Generative Adversarial Networks (GAN)?

Select the correct answer

question mark

Qual è l'uso principale del Fréchet Inception Distance (FID) nella valutazione dei modelli generativi?

Select the correct answer

question mark

Quale metrica viene comunemente utilizzata per valutare la similarità semantica tra testo generato e testo di riferimento?

Select the correct answer

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 3. Capitolo 3
some-alt