Metriche di Valutazione per l'IA Generativa

La valutazione dei modelli generativi si differenzia da quella dei modelli discriminativi, che si basano su metriche di accuratezza. Poiché i modelli generativi producono molteplici output validi, devono essere valutati in termini di qualità, diversità e rilevanza. Questa sezione introduce le principali metriche utilizzate sia nella ricerca che nell'industria per valutare i modelli generativi secondo dimensioni percettive, statistiche e centrate sull'utente.

Valutazione per modelli basati su immagini (GAN, VAE, Diffusion)

I metodi di valutazione percettiva e statistica sono comunemente applicati ai modelli generativi basati su immagini. Questi aiutano a misurare quanto gli output generati siano realistici, diversificati e ben distribuiti rispetto alle immagini reali.

Inception Score (IS)

Quantifica sia la chiarezza che la diversità delle immagini generate utilizzando la confidenza di classificazione di un modello Inception pre-addestrato.

\text{IS}=\exp(\mathbb{E}_x[D_{KL}(p(y|x)||p(y))])

dove:

$p(y|x)$ è la distribuzione condizionale delle etichette per l'immagine $x$
$p(y)$ è la distribuzione marginale delle classi.

Fréchet Inception Distance (FID)

Misura la similarità tra le distribuzioni di immagini reali e generate utilizzando gli embedding delle feature.

\text{FID}=||\mu_r-\mu_g||^2+\text{Tr}(\Sigma_r + \Sigma_g - 2(\Sigma_r\Sigma_g)^{1/2})

dove:

$\mu$ e $\Sigma$ sono la media e la covarianza delle rappresentazioni delle feature.
$\text{Tr}()$ indica la traccia di una matrice — è la somma degli elementi diagonali. La traccia aiuta a quantificare quanto le distribuzioni delle feature differiscano in termini di ampiezza o forma.

LPIPS

Confronta la somiglianza visiva tra immagini utilizzando caratteristiche di reti neurali profonde.

Valutazione per modelli basati su testo (Transformers, GPT, BERT)

I modelli di generazione del linguaggio vengono valutati per qualità, coerenza e rilevanza tramite metriche statistiche, semantiche e soggettive.

BLEU / ROUGE / METEOR

Confrontano la sovrapposizione di n-grammi tra il testo generato e quello di riferimento.

\text{BLEU}=\text{BP} \cdot \exp\left(\sum^N_{n=1}w_n\log p_n\right)

dove:

$p_n$ è la precisione per gli n-grammi
$\text{BP}$ è la penalità di brevità.

BERTScore

Misura la similarità semantica utilizzando embedding contestuali. Utilizza la similarità coseno tra embedding contestuali, con aggregazioni di precisione/recall/F1.

Fedeltà al Prompt

Misura l'aderenza dell'output ai prompt di input, specialmente nei modelli ottimizzati per le istruzioni.

Nota

Confronto manuale tra prompt e output oppure utilizzo di modelli di valutazione della similarità come CLIP o BERT.

Valutazione per Modelli Multimodali (ad es. DALL·E, Stable Diffusion)

I modelli multimodali devono essere valutati per l'allineamento tra le modalità, come immagine e testo.

CLIPScore

Calcola la similarità tra gli embedding delle immagini e quelli dei prompt testuali.

\text{CLIPScores}=cos(f_{image},\ f_{text})

dove $f$ sono embedding specifici per ciascuna modalità.

Fedeltà Prompt-immagine

Misura quanto bene le immagini generate corrispondano ai prompt di condizionamento.

Nota

Utilizzare CLIP o annotazione manuale per valutare l'allineamento visivo-testuale.

Valutazione Umana

Nonostante i progressi nelle metriche automatizzate, la valutazione umana rimane essenziale per compiti soggettivi o creativi. Molti output generativi, specialmente in arte, narrazione o design, richiedono il giudizio umano per valutarne il significato, l'originalità e l'attrattiva. Questi metodi forniscono approfondimenti sfumati che spesso sfuggono alle metriche automatizzate.

Test A/B e Configurazioni in Stile Turing

Richiedere agli utenti di scegliere tra due opzioni quella preferita o che appare più realistica.

Esempio Reale: nella pipeline RLHF di GPT-3 di OpenAI, ai crowdworker venivano mostrate più completamenti del modello e veniva chiesto di classificare o selezionare quello più utile o realistico. Questo feedback ha influenzato direttamente i modelli di ricompensa per ulteriori fasi di fine-tuning.

Fedeltà Prompt-Output

Valutazione soggettiva di quanto bene l'output rifletta il prompt fornito.

Esempio Reale: durante l'addestramento RLHF per InstructGPT, gli annotatori valutavano i completamenti per un prompt come "Scrivi una email cortese per rifiutare un'offerta di lavoro." I punteggi umani determinavano quali output erano allineati con l'intento e lo stile dell'utente.

Scale di Valutazione

Raccolta di valutazioni su scale (ad esempio, da 1 a 5) per realismo, coerenza o creatività.

Esempio Reale: nelle valutazioni di Claude di Anthropic, i ricercatori raccoglievano valutazioni da 1 a 5 stelle su utilità, onestà e innocuità delle generazioni nei dialoghi, supportando gli obiettivi di allineamento del modello.

Valutazione tramite Crowdsourcing

Utilizzo di piattaforme come MTurk per raccogliere opinioni diversificate. Garantire l'accordo tra i valutatori.

Esempio reale: Google ha utilizzato il crowdsourcing su larga scala per valutare la qualità del chatbot LaMDA su dimensioni come la sensatezza e la specificità, aggregando migliaia di giudizi degli utenti.

Approfondisci

Utilizzare una combinazione di valutazioni automatiche e umane per ottenere una comprensione più completa delle prestazioni del modello generativo. L'intuizione umana aiuta a validare l'affidabilità delle metriche e a identificare casi di errore sottili non rilevati dai numeri. Per applicazioni critiche, combinare più valutatori umani e calcolare l'affidabilità inter-valutatore (ad esempio, kappa di Cohen) può migliorare la robustezza.

Riepilogo

Queste strategie di valutazione sono indispensabili per iterare nello sviluppo del modello e guidare le decisioni di distribuzione. Combinare metriche oggettive con feedback umano aiuta gli sviluppatori a bilanciare realismo, creatività, diversità e allineamento con l'intento dell'utente o i requisiti del compito. Una valutazione efficace garantisce che i modelli di intelligenza artificiale generativa non solo funzionino tecnicamente bene, ma siano anche allineati con casi d'uso reali e aspettative umane.

1. Quale delle seguenti metriche di valutazione viene utilizzata principalmente per misurare la diversità delle immagini generate nelle Generative Adversarial Networks (GAN)?

2. Qual è l'uso principale del Fréchet Inception Distance (FID) nella valutazione dei modelli generativi?

3. Quale metrica viene comunemente utilizzata per valutare la similarità semantica tra testo generato e testo di riferimento?

Quale delle seguenti metriche di valutazione viene utilizzata principalmente per misurare la diversità delle immagini generate nelle Generative Adversarial Networks (GAN)?

Select the correct answer

Fréchet Inception Distance (FID)

LPIPS

Inception Score (IS)

BLEU

Qual è l'uso principale del Fréchet Inception Distance (FID) nella valutazione dei modelli generativi?

Select the correct answer

Misurare la chiarezza del testo generato dai modelli

Confrontare le distribuzioni delle caratteristiche di immagini reali e generate

Misurare la somiglianza tra testo e immagini

Valutare la precisione delle previsioni di un modello

Quale metrica viene comunemente utilizzata per valutare la similarità semantica tra testo generato e testo di riferimento?

Select the correct answer

Inception Score

BLEU

BERTScore

FID

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 3. Capitolo 3

Chieda ad AI

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Awesome!

Completion rate improved to 4.76

Metriche di Valutazione per l'IA Generativa

Scorri per mostrare il menu

Valutazione per modelli basati su immagini (GAN, VAE, Diffusion)

Inception Score (IS)

Quantifica sia la chiarezza che la diversità delle immagini generate utilizzando la confidenza di classificazione di un modello Inception pre-addestrato.

\text{IS}=\exp(\mathbb{E}_x[D_{KL}(p(y|x)||p(y))])

dove:

$p(y|x)$ è la distribuzione condizionale delle etichette per l'immagine $x$
$p(y)$ è la distribuzione marginale delle classi.

Fréchet Inception Distance (FID)

Misura la similarità tra le distribuzioni di immagini reali e generate utilizzando gli embedding delle feature.

\text{FID}=||\mu_r-\mu_g||^2+\text{Tr}(\Sigma_r + \Sigma_g - 2(\Sigma_r\Sigma_g)^{1/2})

dove:

$\mu$ e $\Sigma$ sono la media e la covarianza delle rappresentazioni delle feature.
$\text{Tr}()$ indica la traccia di una matrice — è la somma degli elementi diagonali. La traccia aiuta a quantificare quanto le distribuzioni delle feature differiscano in termini di ampiezza o forma.

LPIPS

Confronta la somiglianza visiva tra immagini utilizzando caratteristiche di reti neurali profonde.

Valutazione per modelli basati su testo (Transformers, GPT, BERT)

I modelli di generazione del linguaggio vengono valutati per qualità, coerenza e rilevanza tramite metriche statistiche, semantiche e soggettive.

BLEU / ROUGE / METEOR

Confrontano la sovrapposizione di n-grammi tra il testo generato e quello di riferimento.

\text{BLEU}=\text{BP} \cdot \exp\left(\sum^N_{n=1}w_n\log p_n\right)

dove:

$p_n$ è la precisione per gli n-grammi
$\text{BP}$ è la penalità di brevità.

BERTScore

Misura la similarità semantica utilizzando embedding contestuali. Utilizza la similarità coseno tra embedding contestuali, con aggregazioni di precisione/recall/F1.

Fedeltà al Prompt

Misura l'aderenza dell'output ai prompt di input, specialmente nei modelli ottimizzati per le istruzioni.

Nota

Confronto manuale tra prompt e output oppure utilizzo di modelli di valutazione della similarità come CLIP o BERT.

Valutazione per Modelli Multimodali (ad es. DALL·E, Stable Diffusion)

I modelli multimodali devono essere valutati per l'allineamento tra le modalità, come immagine e testo.

CLIPScore

Calcola la similarità tra gli embedding delle immagini e quelli dei prompt testuali.

\text{CLIPScores}=cos(f_{image},\ f_{text})

dove $f$ sono embedding specifici per ciascuna modalità.

Fedeltà Prompt-immagine

Misura quanto bene le immagini generate corrispondano ai prompt di condizionamento.

Nota

Utilizzare CLIP o annotazione manuale per valutare l'allineamento visivo-testuale.

Valutazione Umana

Test A/B e Configurazioni in Stile Turing

Richiedere agli utenti di scegliere tra due opzioni quella preferita o che appare più realistica.

Esempio Reale: nella pipeline RLHF di GPT-3 di OpenAI, ai crowdworker venivano mostrate più completamenti del modello e veniva chiesto di classificare o selezionare quello più utile o realistico. Questo feedback ha influenzato direttamente i modelli di ricompensa per ulteriori fasi di fine-tuning.

Fedeltà Prompt-Output

Valutazione soggettiva di quanto bene l'output rifletta il prompt fornito.

Esempio Reale: durante l'addestramento RLHF per InstructGPT, gli annotatori valutavano i completamenti per un prompt come "Scrivi una email cortese per rifiutare un'offerta di lavoro." I punteggi umani determinavano quali output erano allineati con l'intento e lo stile dell'utente.

Scale di Valutazione

Raccolta di valutazioni su scale (ad esempio, da 1 a 5) per realismo, coerenza o creatività.

Esempio Reale: nelle valutazioni di Claude di Anthropic, i ricercatori raccoglievano valutazioni da 1 a 5 stelle su utilità, onestà e innocuità delle generazioni nei dialoghi, supportando gli obiettivi di allineamento del modello.

Valutazione tramite Crowdsourcing

Utilizzo di piattaforme come MTurk per raccogliere opinioni diversificate. Garantire l'accordo tra i valutatori.

Esempio reale: Google ha utilizzato il crowdsourcing su larga scala per valutare la qualità del chatbot LaMDA su dimensioni come la sensatezza e la specificità, aggregando migliaia di giudizi degli utenti.

Approfondisci

Riepilogo

1. Quale delle seguenti metriche di valutazione viene utilizzata principalmente per misurare la diversità delle immagini generate nelle Generative Adversarial Networks (GAN)?

2. Qual è l'uso principale del Fréchet Inception Distance (FID) nella valutazione dei modelli generativi?

3. Quale metrica viene comunemente utilizzata per valutare la similarità semantica tra testo generato e testo di riferimento?

Quale delle seguenti metriche di valutazione viene utilizzata principalmente per misurare la diversità delle immagini generate nelle Generative Adversarial Networks (GAN)?

Select the correct answer

Fréchet Inception Distance (FID)

LPIPS

Inception Score (IS)

BLEU

Qual è l'uso principale del Fréchet Inception Distance (FID) nella valutazione dei modelli generativi?

Select the correct answer

Misurare la chiarezza del testo generato dai modelli

Confrontare le distribuzioni delle caratteristiche di immagini reali e generate

Misurare la somiglianza tra testo e immagini

Valutare la precisione delle previsioni di un modello

Quale metrica viene comunemente utilizzata per valutare la similarità semantica tra testo generato e testo di riferimento?

Select the correct answer

Inception Score

BLEU

BERTScore

FID

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 3. Capitolo 3