Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Evalueringsmetrikker for Generativ KI | Bygging og Trening av Generative Modeller
Generativ KI

bookEvalueringsmetrikker for Generativ KI

Evaluering av generative modeller skiller seg fra evaluering av diskriminative modeller, som baserer seg på nøyaktighetsmetrikker. Siden generative modeller kan produsere mange gyldige utdata, må de vurderes ut fra kvalitet, variasjon og relevans. Denne delen introduserer sentrale metrikker brukt både i forskning og industri for å evaluere generative modeller på perseptuelle, statistiske og menneskesentrerte dimensjoner.

Evaluering for bildebasserte modeller (GANs, VAEs, Diffusjon)

Perseptuelle og statistiske evalueringsmetoder brukes ofte på bildegenerative modeller. Disse hjelper med å måle hvor realistiske, varierte og godt fordelt de genererte utdataene er sammenlignet med ekte bilder.

Inception Score (IS)

Kvantifiserer både klarhet og variasjon i genererte bilder ved å bruke klassifiseringssikkerheten til en forhåndstrent Inception-modell.

IS=exp(Ex[DKL(p(yx)p(y))])\text{IS}=\exp(\mathbb{E}_x[D_{KL}(p(y|x)||p(y))])

hvor:

  • p(yx)p(y|x) er den betingede etikettfordelingen for bilde xx
  • p(y)p(y) er den marginale klassefordelingen.

Fréchet Inception Distance (FID)

Måler likheten mellom fordelingene til ekte og genererte bilder ved bruk av funksjonsembeddinger.

FID=μrμg2+Tr(Σr+Σg2(ΣrΣg)1/2)\text{FID}=||\mu_r-\mu_g||^2+\text{Tr}(\Sigma_r + \Sigma_g - 2(\Sigma_r\Sigma_g)^{1/2})

hvor:

  • μ\mu og Σ\Sigma er gjennomsnitt og kovarians av funksjonsrepresentasjoner.
  • Tr()\text{Tr}() står for sporet til en matrise — det er summen av diagonal-elementene. Sporet hjelper med å kvantifisere hvor forskjellige funksjonsfordelingene er når det gjelder spredning eller form.

LPIPS

Sammenligner visuell likhet mellom bilder ved bruk av dype nettverksfunksjoner.

Evaluering av tekstbaserte modeller (Transformers, GPT, BERT)

Språkgenereringsmodeller vurderes for kvalitet, sammenheng og relevans gjennom statistiske, semantiske og subjektive målemetoder.

BLEU / ROUGE / METEOR

Sammenligner n-gram-overlapp mellom generert og referansetekst.

BLEU=BPexp(n=1Nwnlogpn)\text{BLEU}=\text{BP} \cdot \exp\left(\sum^N_{n=1}w_n\log p_n\right)

hvor:

  • pnp_n er presisjon for n-gram
  • BP\text{BP} er korthetsstraff.

BERTScore

Måler semantisk likhet ved bruk av kontekstuelle innebygginger. Benytter cosinuslikhet mellom kontekstuelle innebygginger, med presisjon/tilbakekalling/F1-aggregater.

Promptfidelitet

Måler hvor godt utdata følger inngangspromptene, spesielt i instruksjonstilpassede modeller.

Note
Merk

Manuell sammenligning av prompt og utdata eller bruk av likhetsscoringsmodeller som CLIP eller BERT.

Evaluering av multimodale modeller (f.eks. DALL·E, Stable Diffusion)

Multimodale modeller må evalueres for samsvar mellom modaliteter, som bilde og tekst.

CLIPScore

Beregner likhet mellom bildeembeddinger og tekstpromptembeddinger.

CLIPScores=cos(fimage, ftext)\text{CLIPScores}=cos(f_{image},\ f_{text})

hvor ff er modalitetsspesifikke embeddinger.

Troverdighet fra prompt til bilde

Måler hvor godt genererte bilder samsvarer med sine tilhørende prompt.

Note
Merk

Bruk CLIP eller manuell annotering for å vurdere visuell-tekstlig samsvar.

Menneskelig evaluering

Til tross for fremskritt innen automatiserte målemetoder, er menneskelig evaluering fortsatt avgjørende for subjektive eller kreative oppgaver. Mange generative resultater, spesielt innen kunst, historiefortelling eller design, krever menneskelig vurdering for å bedømme meningsfullhet, originalitet og appell. Disse metodene gir nyanserte innsikter som automatiserte målemetoder ofte overser.

A/B-testing og Turing-lignende oppsett

Be brukere velge foretrukket eller mest realistisk utseende utdata fra to alternativer.

  • Virkelig eksempel: I OpenAIs GPT-3 RLHF-prosess ble crowdworkere vist flere modellfullføringer og bedt om å rangere eller velge den mest hjelpsomme eller realistiske. Denne tilbakemeldingen formet direkte belønningsmodellene for videre finjustering.

Troverdighet fra prompt til utdata

Subjektiv vurdering av hvor godt utdataene gjenspeiler den gitte prompten.

  • Virkelig eksempel: Under RLHF-trening for InstructGPT vurderte annotatorer fullføringer for en prompt som "Write a polite email declining a job offer." Menneskelige vurderinger avgjorde hvilke utdata som samsvarte med brukerens hensikt og stil.

Vurderingsskalaer

Samle inn vurderinger på skalaer (f.eks. 1–5) for realisme, sammenheng eller kreativitet.

  • Virkelig eksempel: I Anthropic sine Claude-evalueringer samlet forskere inn 1–5-stjerners vurderinger på hjelpsomhet, ærlighet og ufarlighet for genererte dialoger, noe som støttet modellens tilpasningsmål.

Evaluering med folkekilder

Bruk plattformer som MTurk for å samle inn ulike meninger. Sikre enighet blant vurdererne.

  • Virkelig eksempel: Google benyttet storskala folkebasert evaluering for å vurdere kvaliteten på LaMDA-chatboten på dimensjoner som fornuftighet og spesifisitet ved å aggregere tusenvis av brukerbedømmelser.
Note
Studer mer

Bruk en kombinasjon av automatiske og menneskesentrerte evalueringer for å få en mer fullstendig forståelse av ytelsen til generative modeller. Menneskelig innsikt bidrar til å validere påliteligheten til metrikker og identifisere subtile feiltilfeller som ikke fanges opp av tall. For kritiske applikasjoner kan det å kombinere flere menneskelige vurderere og beregne interrater-pålitelighet (f.eks. Cohens kappa) forbedre robustheten.

Sammendrag

Disse evalueringsstrategiene er uunnværlige for å iterere modellutvikling og veilede beslutninger om produksjonssetting. En kombinasjon av objektive målemetoder og menneskelig tilbakemelding hjelper utviklere med å balansere realisme, kreativitet, mangfold og samsvar med brukerintensjon eller oppgavekrav. Effektiv evaluering sikrer at generative AI-modeller ikke bare presterer teknisk godt, men også er tilpasset virkelige bruksområder og menneskelige forventninger.

1. Hvilket av følgende evalueringsmål brukes primært for å måle mangfoldet av genererte bilder i Generative Adversarial Networks (GANs)?

2. Hva er hovedformålet med Fréchet Inception Distance (FID) i evaluering av generative modeller?

3. Hvilken metrikk brukes ofte for å evaluere den semantiske likheten mellom generert tekst og referansetekst?

question mark

Hvilket av følgende evalueringsmål brukes primært for å måle mangfoldet av genererte bilder i Generative Adversarial Networks (GANs)?

Select the correct answer

question mark

Hva er hovedformålet med Fréchet Inception Distance (FID) i evaluering av generative modeller?

Select the correct answer

question mark

Hvilken metrikk brukes ofte for å evaluere den semantiske likheten mellom generert tekst og referansetekst?

Select the correct answer

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 3. Kapittel 3

Spør AI

expand

Spør AI

ChatGPT

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Awesome!

Completion rate improved to 4.76

bookEvalueringsmetrikker for Generativ KI

Sveip for å vise menyen

Evaluering av generative modeller skiller seg fra evaluering av diskriminative modeller, som baserer seg på nøyaktighetsmetrikker. Siden generative modeller kan produsere mange gyldige utdata, må de vurderes ut fra kvalitet, variasjon og relevans. Denne delen introduserer sentrale metrikker brukt både i forskning og industri for å evaluere generative modeller på perseptuelle, statistiske og menneskesentrerte dimensjoner.

Evaluering for bildebasserte modeller (GANs, VAEs, Diffusjon)

Perseptuelle og statistiske evalueringsmetoder brukes ofte på bildegenerative modeller. Disse hjelper med å måle hvor realistiske, varierte og godt fordelt de genererte utdataene er sammenlignet med ekte bilder.

Inception Score (IS)

Kvantifiserer både klarhet og variasjon i genererte bilder ved å bruke klassifiseringssikkerheten til en forhåndstrent Inception-modell.

IS=exp(Ex[DKL(p(yx)p(y))])\text{IS}=\exp(\mathbb{E}_x[D_{KL}(p(y|x)||p(y))])

hvor:

  • p(yx)p(y|x) er den betingede etikettfordelingen for bilde xx
  • p(y)p(y) er den marginale klassefordelingen.

Fréchet Inception Distance (FID)

Måler likheten mellom fordelingene til ekte og genererte bilder ved bruk av funksjonsembeddinger.

FID=μrμg2+Tr(Σr+Σg2(ΣrΣg)1/2)\text{FID}=||\mu_r-\mu_g||^2+\text{Tr}(\Sigma_r + \Sigma_g - 2(\Sigma_r\Sigma_g)^{1/2})

hvor:

  • μ\mu og Σ\Sigma er gjennomsnitt og kovarians av funksjonsrepresentasjoner.
  • Tr()\text{Tr}() står for sporet til en matrise — det er summen av diagonal-elementene. Sporet hjelper med å kvantifisere hvor forskjellige funksjonsfordelingene er når det gjelder spredning eller form.

LPIPS

Sammenligner visuell likhet mellom bilder ved bruk av dype nettverksfunksjoner.

Evaluering av tekstbaserte modeller (Transformers, GPT, BERT)

Språkgenereringsmodeller vurderes for kvalitet, sammenheng og relevans gjennom statistiske, semantiske og subjektive målemetoder.

BLEU / ROUGE / METEOR

Sammenligner n-gram-overlapp mellom generert og referansetekst.

BLEU=BPexp(n=1Nwnlogpn)\text{BLEU}=\text{BP} \cdot \exp\left(\sum^N_{n=1}w_n\log p_n\right)

hvor:

  • pnp_n er presisjon for n-gram
  • BP\text{BP} er korthetsstraff.

BERTScore

Måler semantisk likhet ved bruk av kontekstuelle innebygginger. Benytter cosinuslikhet mellom kontekstuelle innebygginger, med presisjon/tilbakekalling/F1-aggregater.

Promptfidelitet

Måler hvor godt utdata følger inngangspromptene, spesielt i instruksjonstilpassede modeller.

Note
Merk

Manuell sammenligning av prompt og utdata eller bruk av likhetsscoringsmodeller som CLIP eller BERT.

Evaluering av multimodale modeller (f.eks. DALL·E, Stable Diffusion)

Multimodale modeller må evalueres for samsvar mellom modaliteter, som bilde og tekst.

CLIPScore

Beregner likhet mellom bildeembeddinger og tekstpromptembeddinger.

CLIPScores=cos(fimage, ftext)\text{CLIPScores}=cos(f_{image},\ f_{text})

hvor ff er modalitetsspesifikke embeddinger.

Troverdighet fra prompt til bilde

Måler hvor godt genererte bilder samsvarer med sine tilhørende prompt.

Note
Merk

Bruk CLIP eller manuell annotering for å vurdere visuell-tekstlig samsvar.

Menneskelig evaluering

Til tross for fremskritt innen automatiserte målemetoder, er menneskelig evaluering fortsatt avgjørende for subjektive eller kreative oppgaver. Mange generative resultater, spesielt innen kunst, historiefortelling eller design, krever menneskelig vurdering for å bedømme meningsfullhet, originalitet og appell. Disse metodene gir nyanserte innsikter som automatiserte målemetoder ofte overser.

A/B-testing og Turing-lignende oppsett

Be brukere velge foretrukket eller mest realistisk utseende utdata fra to alternativer.

  • Virkelig eksempel: I OpenAIs GPT-3 RLHF-prosess ble crowdworkere vist flere modellfullføringer og bedt om å rangere eller velge den mest hjelpsomme eller realistiske. Denne tilbakemeldingen formet direkte belønningsmodellene for videre finjustering.

Troverdighet fra prompt til utdata

Subjektiv vurdering av hvor godt utdataene gjenspeiler den gitte prompten.

  • Virkelig eksempel: Under RLHF-trening for InstructGPT vurderte annotatorer fullføringer for en prompt som "Write a polite email declining a job offer." Menneskelige vurderinger avgjorde hvilke utdata som samsvarte med brukerens hensikt og stil.

Vurderingsskalaer

Samle inn vurderinger på skalaer (f.eks. 1–5) for realisme, sammenheng eller kreativitet.

  • Virkelig eksempel: I Anthropic sine Claude-evalueringer samlet forskere inn 1–5-stjerners vurderinger på hjelpsomhet, ærlighet og ufarlighet for genererte dialoger, noe som støttet modellens tilpasningsmål.

Evaluering med folkekilder

Bruk plattformer som MTurk for å samle inn ulike meninger. Sikre enighet blant vurdererne.

  • Virkelig eksempel: Google benyttet storskala folkebasert evaluering for å vurdere kvaliteten på LaMDA-chatboten på dimensjoner som fornuftighet og spesifisitet ved å aggregere tusenvis av brukerbedømmelser.
Note
Studer mer

Bruk en kombinasjon av automatiske og menneskesentrerte evalueringer for å få en mer fullstendig forståelse av ytelsen til generative modeller. Menneskelig innsikt bidrar til å validere påliteligheten til metrikker og identifisere subtile feiltilfeller som ikke fanges opp av tall. For kritiske applikasjoner kan det å kombinere flere menneskelige vurderere og beregne interrater-pålitelighet (f.eks. Cohens kappa) forbedre robustheten.

Sammendrag

Disse evalueringsstrategiene er uunnværlige for å iterere modellutvikling og veilede beslutninger om produksjonssetting. En kombinasjon av objektive målemetoder og menneskelig tilbakemelding hjelper utviklere med å balansere realisme, kreativitet, mangfold og samsvar med brukerintensjon eller oppgavekrav. Effektiv evaluering sikrer at generative AI-modeller ikke bare presterer teknisk godt, men også er tilpasset virkelige bruksområder og menneskelige forventninger.

1. Hvilket av følgende evalueringsmål brukes primært for å måle mangfoldet av genererte bilder i Generative Adversarial Networks (GANs)?

2. Hva er hovedformålet med Fréchet Inception Distance (FID) i evaluering av generative modeller?

3. Hvilken metrikk brukes ofte for å evaluere den semantiske likheten mellom generert tekst og referansetekst?

question mark

Hvilket av følgende evalueringsmål brukes primært for å måle mangfoldet av genererte bilder i Generative Adversarial Networks (GANs)?

Select the correct answer

question mark

Hva er hovedformålet med Fréchet Inception Distance (FID) i evaluering av generative modeller?

Select the correct answer

question mark

Hvilken metrikk brukes ofte for å evaluere den semantiske likheten mellom generert tekst og referansetekst?

Select the correct answer

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 3. Kapittel 3
some-alt