Lära Utvärderingsmått för Generativ AI | Bygga och Träna Generativa Modeller

Svep för att visa menyn

Utvärdering av generativa modeller skiljer sig från utvärdering av diskriminativa modeller, vilka förlitar sig på noggrannhetsmått. Eftersom generativa modeller kan producera många giltiga utdata, måste de bedömas utifrån kvalitet, mångfald och relevans. Detta avsnitt introducerar centrala mått som används inom både forskning och industri för att utvärdera generativa modeller utifrån perceptuella, statistiska och människocentrerade dimensioner.

Utvärdering för bildbaserade modeller (GANs, VAEs, Diffusion)

Perceptuella och statistiska utvärderingsmetoder används ofta för bildbaserade generativa modeller. Dessa hjälper till att mäta hur realistiska, varierade och välfördelade de genererade utdata är jämfört med verkliga bilder.

Inception Score (IS)

Kvantifierar både tydlighet och mångfald hos genererade bilder genom klassificeringssäkerheten hos en förtränad Inception-modell.

\text{IS}=\exp(\mathbb{E}_x[D_{KL}(p(y|x)||p(y))])

Där:

$p(y|x)$ är den villkorliga etikettfördelningen för bild $x$
$p(y)$ är den marginella klassfördelningen.

Fréchet Inception Distance (FID)

Mäter likheten mellan verkliga och genererade bildfördelningar med hjälp av funktionsinbäddningar.

\text{FID}=||\mu_r-\mu_g||^2+\text{Tr}(\Sigma_r + \Sigma_g - 2(\Sigma_r\Sigma_g)^{1/2})

Där:

$\mu$ och $\Sigma$ är medelvärde och kovarians för funktionsrepresentationer.
$\text{Tr}()$ står för spår av en matris — det är summan av de diagonala elementen. Spåret hjälper till att kvantifiera hur olika funktionsfördelningarna är vad gäller spridning eller form.

LPIPS

Jämför visuell likhet mellan bilder med hjälp av djupa nätverksfunktioner.

Utvärdering för textbaserade modeller (Transformers, GPT, BERT)

Språkgenereringsmodeller utvärderas för kvalitet, koherens och relevans genom statistiska, semantiska och subjektiva mått.

BLEU / ROUGE / METEOR

Jämför n-gramöverensstämmelse mellan genererad och referenstext.

\text{BLEU}=\text{BP} \cdot \exp\left(\sum^N_{n=1}w_n\log p_n\right)

Där:

$p_n$ är precision för n-gram
$\text{BP}$ är längdstraff (brevity penalty).

BERTScore

Mäter semantisk likhet med hjälp av kontextuella inbäddningar. Använder cosinuslikhet mellan kontextuella inbäddningar, med precision/recall/F1-aggregat.

Promptfidelitet

Mäter hur väl utdata följer inmatningsprompter, särskilt i instruktionsanpassade modeller.

Notering

Jämför manuellt prompter med utdata eller använd likhetspoängsmodeller som CLIP eller BERT.

Utvärdering för multimodala modeller (t.ex. DALL·E, Stable Diffusion)

Multimodala modeller behöver utvärderas för överensstämmelse mellan modaliteter, såsom bild och text.

CLIPScore

Beräknar likhet mellan bildinbäddningar och textprompt-inbäddningar.

\text{CLIPScores}=cos(f_{image},\ f_{text})

där $f$ är modalitetsspecifika inbäddningar.

Prompt-till-bild-trovärdighet

Mäter hur väl genererade bilder överensstämmer med sina tillhörande prompts.

Notering

Använd CLIP eller manuell annotering för att bedöma visuell-textuell överensstämmelse.

Mänsklig utvärdering

Trots framsteg inom automatiserade mått är mänsklig utvärdering fortfarande avgörande för subjektiva eller kreativa uppgifter. Många generativa resultat, särskilt inom konst, berättande eller design, kräver mänsklig bedömning för att utvärdera deras meningsfullhet, originalitet och attraktionskraft. Dessa metoder ger nyanserade insikter som automatiserade mått ofta missar.

A/B-testning och Turing-liknande upplägg

Be användare välja föredragna eller mest verklighetstrogna resultat från två alternativ.

Exempel från verkligheten: I OpenAI:s GPT-3 RLHF-process visades crowdworkers flera modellslut och ombads rangordna eller välja det mest hjälpsamma eller realistiska. Denna återkoppling påverkade direkt belöningsmodeller för vidare finjustering.

Trovärdighet mellan prompt och resultat

Subjektiv utvärdering av hur väl resultatet återspeglar given prompt.

Exempel från verkligheten: Under RLHF-träning för InstructGPT betygsatte annotatörer slutföranden för en prompt som "Skriv ett artigt mejl där du tackar nej till ett jobberbjudande." Mänskliga poäng avgjorde vilka resultat som stämde överens med användarens avsikt och stil.

Betygsskalor

Samla in betyg på skalor (t.ex. 1–5) för realism, sammanhang eller kreativitet.

Exempel från verkligheten: I Anthropic:s Claude-utvärderingar samlade forskare in betyg från 1–5 stjärnor på hjälpsamhet, ärlighet och ofarlighet för genererade dialoger, vilket stödde modellens anpassningsmål.

Utvärdering med hjälp av crowdsourcing

Använd plattformar som MTurk för att samla in varierande åsikter. Säkerställ överensstämmelse mellan bedömare.

Exempel från verkligheten: Google använde storskalig crowdsourcing för att utvärdera kvaliteten på LaMDA-chatboten utifrån faktorer som rimlighet och specificitet genom att samla in tusentals användarbedömningar.

Studera vidare

Använd en kombination av automatiska och människocentrerade utvärderingar för att få en mer komplett bild av generativa modellers prestanda. Mänsklig insikt bidrar till att validera metrisk tillförlitlighet och identifiera subtila fel som inte fångas av siffror. För kritiska tillämpningar kan robustheten förbättras genom att kombinera flera mänskliga bedömare och beräkna interbedömarreliabilitet (t.ex. Cohens kappa).

Sammanfattning

Dessa utvärderingsstrategier är oumbärliga för att iterera modellutveckling och vägleda beslut om driftsättning. Kombinationen av objektiva mått och mänsklig återkoppling hjälper utvecklare att balansera realism, kreativitet, mångfald och överensstämmelse med användarens avsikt eller uppgiftskrav. Effektiv utvärdering säkerställer att generativa AI-modeller inte bara presterar tekniskt väl, utan även är anpassade till verkliga användningsfall och mänskliga förväntningar.