Evalueringsmetrikker for Generativ AI

Evaluering af generative modeller adskiller sig fra evaluering af diskriminative modeller, som benytter nøjagtighedsmetrikker. Da generative modeller kan producere mange gyldige output, skal de vurderes ud fra kvalitet, diversitet og relevans. Dette afsnit introducerer centrale metrikker, der anvendes i både forskning og industri til at evaluere generative modeller på tværs af perceptuelle, statistiske og menneskecentrerede dimensioner.

Evaluering af billedbaserede modeller (GANs, VAEs, Diffusion)

Perceptuelle og statistiske evalueringsmetoder anvendes ofte på billedbaserede generative modeller. Disse hjælper med at måle, hvor realistiske, varierede og veluddelte de genererede output er sammenlignet med ægte billeder.

Inception Score (IS)

Kvantificerer både klarhed og diversitet i genererede billeder ved at bruge klassifikationssikkerheden fra en prætrænet Inception-model.

\text{IS}=\exp(\mathbb{E}_x[D_{KL}(p(y|x)||p(y))])

hvor:

$p(y|x)$ er den betingede label-fordeling for billede $x$
$p(y)$ er den marginale klassefordeling.

Fréchet Inception Distance (FID)

Måler ligheden mellem fordelinger af ægte og genererede billeder ved brug af feature-embeddings.

\text{FID}=||\mu_r-\mu_g||^2+\text{Tr}(\Sigma_r + \Sigma_g - 2(\Sigma_r\Sigma_g)^{1/2})

hvor:

$\mu$ og $\Sigma$ er middelværdi og kovarians af feature-repræsentationer.
$\text{Tr}()$ står for sporet af en matrix — det er summen af de diagonale elementer. Sporet hjælper med at kvantificere, hvor forskellige feature-fordelingerne er med hensyn til deres spredning eller form.

LPIPS

Sammenligner visuel lighed mellem billeder ved hjælp af dybe netværksfunktioner.

Evaluering af tekstbaserede modeller (Transformers, GPT, BERT)

Sprogmodeller til generering evalueres for kvalitet, sammenhæng og relevans gennem statistiske, semantiske og subjektive metrikker.

BLEU / ROUGE / METEOR

Sammenligner n-gram overlap mellem genereret og reference tekst.

\text{BLEU}=\text{BP} \cdot \exp\left(\sum^N_{n=1}w_n\log p_n\right)

hvor:

$p_n$ er præcision for n-grammer
$\text{BP}$ er korthedsstraffen.

BERTScore

Måler semantisk lighed ved brug af kontekstuelle indlejringer. Benytter cosinus-similaritet mellem kontekstuelle indlejringer, med præcision/recall/F1 aggregeringer.

Prompt-troskab

Måler overholdelse af output i forhold til input-prompter, især i modeller finjusteret til instruktioner.

Bemærk

Manuel sammenligning af prompter og output eller brug af models til lighedsscore som CLIP eller BERT.

Evaluering af multimodale modeller (f.eks. DALL·E, Stable Diffusion)

Multimodale modeller skal evalueres for overensstemmelse mellem modaliteter, såsom billede og tekst.

CLIPScore

Beregner lighed mellem billed-embeddings og tekstuelle prompt-embeddings.

\text{CLIPScores}=cos(f_{image},\ f_{text})

hvor $f$ er modalitetsspecifikke embeddings.

Prompt-til-billede-troskab

Måler, hvor godt genererede billeder matcher deres betingende prompts.

Bemærk

Brug CLIP eller manuel annotering til at vurdere visuel-tekstuel overensstemmelse.

Menneskelig evaluering

På trods af fremskridt inden for automatiserede metrikker forbliver menneskelig evaluering afgørende for subjektive eller kreative opgaver. Mange generative output, især inden for kunst, historiefortælling eller design, kræver menneskelig vurdering for at bedømme deres meningsfuldhed, originalitet og appel. Disse metoder giver nuancerede indsigter, som automatiserede metrikker ofte overser.

A/B-testning og Turing-lignende opsætninger

Bed brugere om at vælge det foretrukne eller mest realistiske output blandt to muligheder.

Virkelighedseksempel: I OpenAI's GPT-3 RLHF-pipeline blev crowdworkere præsenteret for flere modeludfyldelser og bedt om at rangere eller vælge den mest hjælpsomme eller realistiske. Denne feedback formede direkte belønningsmodeller til yderligere finjustering.

Prompt-til-output-troværdighed

Subjektiv evaluering af, hvor godt outputtet afspejler den givne prompt.

Virkelighedseksempel: Under RLHF-træning for InstructGPT vurderede annotatorer udfyldelser for en prompt som "Skriv en høflig e-mail, der afslår et jobtilbud." Menneskelige vurderinger afgjorde, hvilke outputs der matchede brugerens hensigt og stil.

Vurderingsskalaer

Indsamling af vurderinger på skalaer (f.eks. 1–5) for realisme, sammenhæng eller kreativitet.

Virkelighedseksempel: I Anthropic's Claude-evalueringer indsamlede forskere 1–5-stjernede vurderinger af hjælpsomhed, ærlighed og ufarlighed for genereringer i dialog, hvilket understøttede modellens tilpasningsmål.

Crowdsourcet evaluering

Brug platforme som MTurk til at indsamle forskellige meninger. Sikr overensstemmelse mellem bedømmere.

Virkelighedseksempel: Google anvendte storskala crowdsourcing til at vurdere LaMDA-chatbottens kvalitet på dimensioner som fornuftighed og specificitet ved at samle tusindvis af brugerbedømmelser.

Studér mere

Brug en hybrid af automatiske og menneskecentrerede evalueringer for at opnå en mere fuldstændig forståelse af generative modellers ydeevne. Menneskelig indsigt hjælper med at validere metrikkers pålidelighed og identificere subtile fejltilfælde, som ikke fanges af tal. For kritiske anvendelser kan kombinationen af flere menneskelige bedømmere og beregning af inter-bedømmer pålidelighed (f.eks. Cohens kappa) øge robustheden.

Resumé

Disse evalueringsstrategier er uundværlige for at iterere modeludvikling og vejlede beslutninger om implementering. Kombinationen af objektive målinger og menneskelig feedback hjælper udviklere med at balancere realisme, kreativitet, diversitet og overensstemmelse med brugerens hensigt eller opgavekrav. Effektiv evaluering sikrer, at generative AI-modeller ikke kun præsterer teknisk godt, men også stemmer overens med virkelige anvendelser og menneskelige forventninger.

1. Hvilken af følgende evalueringsmetrikker bruges primært til at måle diversiteten af genererede billeder i Generative Adversarial Networks (GANs)?

2. Hvad er det primære formål med Fréchet Inception Distance (FID) ved evaluering af generative modeller?

3. Hvilken metrik anvendes ofte til at evaluere den semantiske lighed mellem genereret tekst og reference tekst?

Hvilken af følgende evalueringsmetrikker bruges primært til at måle diversiteten af genererede billeder i Generative Adversarial Networks (GANs)?

Select the correct answer

Fréchet Inception Distance (FID)

LPIPS

Inception Score (IS)

BLEU

Hvad er det primære formål med Fréchet Inception Distance (FID) ved evaluering af generative modeller?

Select the correct answer

At måle klarheden af tekst genereret af modeller

At sammenligne fordeling af træk fra ægte og genererede billeder

At måle ligheden mellem tekst og billeder

At evaluere præcisionen af en models forudsigelser

Hvilken metrik anvendes ofte til at evaluere den semantiske lighed mellem genereret tekst og reference tekst?

Select the correct answer

Inception Score

BLEU

BERTScore

FID

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 3. Kapitel 3

Spørg AI

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Suggested prompts:

What are the main differences between IS, FID, and LPIPS for image model evaluation?

Can you explain how human evaluation complements automated metrics?

How do I choose which evaluation metric to use for my generative model?

Awesome!

Completion rate improved to 4.76

Evalueringsmetrikker for Generativ AI

Stryg for at vise menuen

Evaluering af billedbaserede modeller (GANs, VAEs, Diffusion)

Inception Score (IS)

Kvantificerer både klarhed og diversitet i genererede billeder ved at bruge klassifikationssikkerheden fra en prætrænet Inception-model.

\text{IS}=\exp(\mathbb{E}_x[D_{KL}(p(y|x)||p(y))])

hvor:

$p(y|x)$ er den betingede label-fordeling for billede $x$
$p(y)$ er den marginale klassefordeling.

Fréchet Inception Distance (FID)

Måler ligheden mellem fordelinger af ægte og genererede billeder ved brug af feature-embeddings.

\text{FID}=||\mu_r-\mu_g||^2+\text{Tr}(\Sigma_r + \Sigma_g - 2(\Sigma_r\Sigma_g)^{1/2})

hvor:

$\mu$ og $\Sigma$ er middelværdi og kovarians af feature-repræsentationer.
$\text{Tr}()$ står for sporet af en matrix — det er summen af de diagonale elementer. Sporet hjælper med at kvantificere, hvor forskellige feature-fordelingerne er med hensyn til deres spredning eller form.

LPIPS

Sammenligner visuel lighed mellem billeder ved hjælp af dybe netværksfunktioner.

Evaluering af tekstbaserede modeller (Transformers, GPT, BERT)

Sprogmodeller til generering evalueres for kvalitet, sammenhæng og relevans gennem statistiske, semantiske og subjektive metrikker.

BLEU / ROUGE / METEOR

Sammenligner n-gram overlap mellem genereret og reference tekst.

\text{BLEU}=\text{BP} \cdot \exp\left(\sum^N_{n=1}w_n\log p_n\right)

hvor:

$p_n$ er præcision for n-grammer
$\text{BP}$ er korthedsstraffen.

BERTScore

Måler semantisk lighed ved brug af kontekstuelle indlejringer. Benytter cosinus-similaritet mellem kontekstuelle indlejringer, med præcision/recall/F1 aggregeringer.

Prompt-troskab

Måler overholdelse af output i forhold til input-prompter, især i modeller finjusteret til instruktioner.

Bemærk

Manuel sammenligning af prompter og output eller brug af models til lighedsscore som CLIP eller BERT.

Evaluering af multimodale modeller (f.eks. DALL·E, Stable Diffusion)

Multimodale modeller skal evalueres for overensstemmelse mellem modaliteter, såsom billede og tekst.

CLIPScore

Beregner lighed mellem billed-embeddings og tekstuelle prompt-embeddings.

\text{CLIPScores}=cos(f_{image},\ f_{text})

hvor $f$ er modalitetsspecifikke embeddings.

Prompt-til-billede-troskab

Måler, hvor godt genererede billeder matcher deres betingende prompts.

Bemærk

Brug CLIP eller manuel annotering til at vurdere visuel-tekstuel overensstemmelse.

Menneskelig evaluering

A/B-testning og Turing-lignende opsætninger

Bed brugere om at vælge det foretrukne eller mest realistiske output blandt to muligheder.

Virkelighedseksempel: I OpenAI's GPT-3 RLHF-pipeline blev crowdworkere præsenteret for flere modeludfyldelser og bedt om at rangere eller vælge den mest hjælpsomme eller realistiske. Denne feedback formede direkte belønningsmodeller til yderligere finjustering.

Prompt-til-output-troværdighed

Subjektiv evaluering af, hvor godt outputtet afspejler den givne prompt.

Virkelighedseksempel: Under RLHF-træning for InstructGPT vurderede annotatorer udfyldelser for en prompt som "Skriv en høflig e-mail, der afslår et jobtilbud." Menneskelige vurderinger afgjorde, hvilke outputs der matchede brugerens hensigt og stil.

Vurderingsskalaer

Indsamling af vurderinger på skalaer (f.eks. 1–5) for realisme, sammenhæng eller kreativitet.

Virkelighedseksempel: I Anthropic's Claude-evalueringer indsamlede forskere 1–5-stjernede vurderinger af hjælpsomhed, ærlighed og ufarlighed for genereringer i dialog, hvilket understøttede modellens tilpasningsmål.

Crowdsourcet evaluering

Brug platforme som MTurk til at indsamle forskellige meninger. Sikr overensstemmelse mellem bedømmere.

Virkelighedseksempel: Google anvendte storskala crowdsourcing til at vurdere LaMDA-chatbottens kvalitet på dimensioner som fornuftighed og specificitet ved at samle tusindvis af brugerbedømmelser.

Studér mere

Resumé

1. Hvilken af følgende evalueringsmetrikker bruges primært til at måle diversiteten af genererede billeder i Generative Adversarial Networks (GANs)?

2. Hvad er det primære formål med Fréchet Inception Distance (FID) ved evaluering af generative modeller?

3. Hvilken metrik anvendes ofte til at evaluere den semantiske lighed mellem genereret tekst og reference tekst?

Hvilken af følgende evalueringsmetrikker bruges primært til at måle diversiteten af genererede billeder i Generative Adversarial Networks (GANs)?

Select the correct answer

Fréchet Inception Distance (FID)

LPIPS

Inception Score (IS)

BLEU

Hvad er det primære formål med Fréchet Inception Distance (FID) ved evaluering af generative modeller?

Select the correct answer

At måle klarheden af tekst genereret af modeller

At sammenligne fordeling af træk fra ægte og genererede billeder

At måle ligheden mellem tekst og billeder

At evaluere præcisionen af en models forudsigelser

Hvilken metrik anvendes ofte til at evaluere den semantiske lighed mellem genereret tekst og reference tekst?

Select the correct answer

Inception Score

BLEU

BERTScore

FID

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 3. Kapitel 3