Oppiskele Generatiivisen Tekoälyn Arviointimittarit

Pyyhkäise näyttääksesi valikon

Generatiivisten mallien arviointi poikkeaa diskriminatiivisten mallien arvioinnista, jotka perustuvat tarkkuusmittareihin. Koska generatiiviset mallit tuottavat useita kelvollisia tuloksia, niiden laatua, monimuotoisuutta ja osuvuutta on arvioitava. Tässä osiossa esitellään keskeiset mittarit, joita käytetään sekä tutkimuksessa että teollisuudessa generatiivisten mallien arviointiin havaintoon, tilastollisuuteen ja ihmiskeskeisyyteen liittyvillä ulottuvuuksilla.

Kuvapohjaisten mallien arviointi (GAN:t, VAE:t, Diffuusio)

Havaintoon ja tilastollisuuteen perustuvia arviointimenetelmiä käytetään yleisesti kuvapohjaisissa generatiivisissa malleissa. Näiden avulla mitataan, kuinka realistisia, monimuotoisia ja hyvin jakautuneita tuotetut kuvat ovat verrattuna aitoihin kuviin.

Inception Score (IS)

Arvioi tuotettujen kuvien selkeyttä ja monimuotoisuutta esikoulutetun Inception-mallin luokitteluluottamuksen avulla.

\text{IS}=\exp(\mathbb{E}_x[D_{KL}(p(y|x)||p(y))])

missä:

$p(y|x)$ on kuvan $x$ ehdollinen luokkajakauma
$p(y)$ on marginaalinen luokkajakauma.

from torchmetrics.image.inception import InceptionScore

inception = InceptionScore()
inception.update(imgs)
inception.compute()

Fréchet Inception Distance (FID)

Mittaa aitojen ja tuotettujen kuvien jakaumien samankaltaisuutta ominaisuusupotusten avulla.

\text{FID}=||\mu_r-\mu_g||^2+\text{Tr}(\Sigma_r + \Sigma_g - 2(\Sigma_r\Sigma_g)^{1/2})

missä:

$\mu$ ja $\Sigma$ ovat ominaisuusreprezentaatioiden keskiarvo ja kovarianssi.
$\text{Tr}()$ tarkoittaa matriisin trassia — se on diagonaalielementtien summa. Trassi auttaa mittaamaan, kuinka erilaisia ominaisuusjakaumat ovat levinneisyyden tai muodon suhteen.

from pytorch_fid import fid_score
    
fid = fid_score.calculate_fid_given_paths(["real_images", "generated_images"], batch_size=50, device="cuda", dims=2048)
print("FID:", fid)

LPIPS

Vertaa kuvien visuaalista samankaltaisuutta syväverkkojen piirteiden avulla.

import lpips
    
loss_fn = lpips.LPIPS(net='alex')
distance = loss_fn(img1, img2)
print("LPIPS Distance:", distance.item())

Arviointi tekstipohjaisille malleille (Transformers, GPT, BERT)

Kieligeneraatiomalleja arvioidaan laadun, johdonmukaisuuden ja osuvuuden perusteella tilastollisilla, semanttisilla ja subjektiivisilla mittareilla.

BLEU / ROUGE / METEOR

Vertaa n-grammien päällekkäisyyttä generoituun ja viitetekstiin.

\text{BLEU}=\text{BP} \cdot \exp\left(\sum^N_{n=1}w_n\log p_n\right)

missä:

$p_n$ on n-grammien tarkkuus
$\text{BP}$ on lyhyysrangaistus.

from nltk.translate.bleu_score import sentence_bleu
    
reference = [['the', 'cat', 'is', 'on', 'the', 'mat']]
candidate = ['the', 'cat', 'sat', 'on', 'the', 'mat']
    
score = sentence_bleu(reference, candidate)
print("BLEU Score:", score)

BERTScore

Mittaa semanttista samankaltaisuutta kontekstuaalisten upotusten avulla. Käyttää kosinietäisyyttä kontekstuaalisten upotusten välillä, tarkkuus/recall/F1-yhteenvetoina.

from bert_score import score
    
cands = ["A cat sits on the mat."]
refs = ["The cat is on the mat."]
    
P, R, F1 = score(cands, refs, lang='en')
print(f"BERTScore F1: {F1.mean().item():.4f}")

Kehotteen uskollisuus

Mittaa tuotoksen noudattamista syötekehotteisiin, erityisesti ohjeistukseen hienosäädetyissä malleissa.

Huomio

Vertaa kehotteita ja tuotoksia manuaalisesti tai käytä samankaltaisuuspisteytysmalleja, kuten CLIP tai BERT.

Monimodaalisten mallien arviointi (esim. DALL·E, Stable Diffusion)

Monimodaaliset mallit tulee arvioida modaliteettien välisen yhteensopivuuden, kuten kuvan ja tekstin, osalta.

CLIPScore

Laskee kuvan upotusten ja tekstikehotteen upotusten välisen samankaltaisuuden.

\text{CLIPScores}=cos(f_{image},\ f_{text})

missä $f$ ovat modaliteettikohtaisia upotuksia.

import torch
import clip
from PIL import Image

model, preprocess = clip.load("ViT-B/32")
image = preprocess(Image.open("generated.jpg")).unsqueeze(0)
text = clip.tokenize(["A dog playing in the snow"])

with torch.no_grad():
    image_features = model.encode_image(image)
    text_features = model.encode_text(text)
    similarity = torch.cosine_similarity(image_features, text_features)
print("CLIPScore:", similarity.item())

Kehote-kuva -vastaavuus

Arvioi, kuinka hyvin generoidut kuvat vastaavat niiden ohjaavia kehotteita.

Huomio

Käytä CLIP:iä tai manuaalista annotointia visuaalisen ja tekstuaalisen vastaavuuden arviointiin.

Ihmisen tekemä arviointi

Automaattisten mittareiden kehityksestä huolimatta ihmisen tekemä arviointi on edelleen olennainen subjektiivisissa tai luovissa tehtävissä. Monet generoidut tuotokset, erityisesti taiteessa, tarinankerronnassa tai suunnittelussa, vaativat ihmisen arviointia niiden merkityksellisyyden, omaperäisyyden ja vetovoiman mittaamiseksi. Nämä menetelmät tarjoavat vivahteikkaita näkemyksiä, joita automaattiset mittarit usein eivät tavoita.

A/B-testaus ja Turing-tyyliset asetelmat

Pyydetään käyttäjiä valitsemaan kahdesta vaihtoehdosta mieluisampi tai aidommalta vaikuttava tulos.

Reaali-esimerkki: OpenAI:n GPT-3 RLHF-prosessissa joukkotyöntekijöille näytettiin useita mallin tuottamia vastauksia, ja heitä pyydettiin järjestämään tai valitsemaan hyödyllisin tai realistisin vaihtoehto. Tämä palaute vaikutti suoraan palkkiomallien kehittämiseen jatkofine-tunauksessa.

Kehotteen ja tuotoksen vastaavuus

Subjektiivinen arvio siitä, kuinka hyvin tuotos vastaa annettua kehotetta.

Reaali-esimerkki: RLHF-koulutuksen aikana InstructGPT:lle annotaattorit arvioivat vastauksia kehotteeseen, kuten "Kirjoita kohtelias sähköposti, jossa kieltäydyt työpaikkatarjouksesta." Ihmisten antamat pisteet määrittivät, mitkä tuotokset vastasivat käyttäjän tarkoitusta ja tyyliä.

Arviointiasteikot

Kerätään arvioita asteikoilla (esim. 1–5) realistisuudesta, johdonmukaisuudesta tai luovuudesta.

Reaali-esimerkki: Anthropicin Claude-arvioinneissa tutkijat keräsivät 1–5 tähden arvioita hyödyllisyydestä, rehellisyydestä ja haitattomuudesta keskustelujen tuotoksille, mikä tuki mallin suuntaamisen tavoitteita.

Yhteisölähtöinen arviointi

Käytä alustoja kuten MTurk kerätäksesi monipuolisia mielipiteitä. Varmista arvioijien yksimielisyys.

Käytännön esimerkki: Google käytti laajamittaista joukkoistamista arvioidakseen LaMDA-chatbotin laatua ominaisuuksilla kuten järkevyys ja tarkkuus kokoamalla tuhansia käyttäjäarvioita.

Opiskele lisää

Käytä automaattisten ja ihmiskeskeisten arviointien yhdistelmää saadaksesi kattavamman kuvan generatiivisen mallin suorituskyvystä. Ihmisen näkemykset auttavat varmistamaan mittareiden luotettavuuden ja tunnistamaan hienovaraisia virhetapauksia, joita numerot eivät paljasta. Kriittisissä sovelluksissa useiden arvioijien yhdistäminen ja arvioijien välisen luotettavuuden (esim. Cohenin kappa) laskeminen voi parantaa tulosten luotettavuutta.

Yhteenveto

Nämä arviointistrategiat ovat välttämättömiä mallin kehityksen iteroinnissa ja käyttöönottoa koskevien päätösten ohjaamisessa. Objektiivisten mittareiden yhdistäminen ihmispalautteeseen auttaa kehittäjiä tasapainottamaan realismia, luovuutta, monimuotoisuutta sekä käyttäjän aikomusten tai tehtävävaatimusten mukaisuutta. Tehokas arviointi varmistaa, että generatiiviset tekoälymallit eivät ainoastaan suoriudu teknisesti hyvin, vaan myös vastaavat todellisia käyttötapauksia ja ihmisten odotuksia.

Oliko kaikki selvää?

Kiitos palautteestasi!

Osio 1. Luku 13

Kysy tekoälyä

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Osio 1. Luku 13

Generatiivisen Tekoälyn Arviointimittarit

Kuvapohjaisten mallien arviointi (GAN:t, VAE:t, Diffuusio)

Inception Score (IS)

Fréchet Inception Distance (FID)

LPIPS

Arviointi tekstipohjaisille malleille (Transformers, GPT, BERT)

BLEU / ROUGE / METEOR

BERTScore

Kehotteen uskollisuus

Monimodaalisten mallien arviointi (esim. DALL·E, Stable Diffusion)

CLIPScore

Kehote-kuva -vastaavuus

Ihmisen tekemä arviointi

A/B-testaus ja Turing-tyyliset asetelmat

Kehotteen ja tuotoksen vastaavuus

Arviointiasteikot

Yhteisölähtöinen arviointi

Yhteenveto

1. Mikä seuraavista arviointimittareista käytetään ensisijaisesti mittaamaan generoitujen kuvien monimuotoisuutta Generative Adversarial Networkeissa (GAN)?

2. Mihin Fréchet Inception Distance (FID) -mittaria käytetään ensisijaisesti generatiivisten mallien arvioinnissa?

3. Mitä metriikkaa käytetään yleisesti arvioimaan generoitu tekstin ja viitetekstin semanttista samankaltaisuutta?