Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Generatiivisen Tekoälyn Arviointimittarit | Generatiivisten Mallien Rakentaminen ja Kouluttaminen
Syvät Generatiiviset Mallit Pythonilla

Generatiivisen Tekoälyn Arviointimittarit

Pyyhkäise näyttääksesi valikon

Generatiivisten mallien arviointi poikkeaa diskriminatiivisten mallien arvioinnista, jotka perustuvat tarkkuusmittareihin. Koska generatiiviset mallit tuottavat useita kelvollisia tuloksia, niitä on arvioitava laadun, monimuotoisuuden ja osuvuuden perusteella. Tässä osiossa esitellään keskeiset mittarit, joita käytetään sekä tutkimuksessa että teollisuudessa generatiivisten mallien arviointiin havaintoon, tilastollisuuteen ja ihmiskeskeisyyteen liittyvillä ulottuvuuksilla.

Kuvapohjaisten mallien arviointi (GAN:t, VAE:t, Diffuusio)

Havaintoon ja tilastollisuuteen perustuvia arviointimenetelmiä käytetään yleisesti kuvapohjaisissa generatiivisissa malleissa. Näiden avulla mitataan, kuinka realistisia, monipuolisia ja hyvin jakautuneita tuotetut kuvat ovat verrattuna aitoihin kuviin.

Inception Score (IS)

Arvioi tuotettujen kuvien selkeyttä ja monimuotoisuutta esikoulutetun Inception-mallin luokitteluluottamuksen avulla.

IS=exp(Ex[DKL(p(yx)p(y))])\text{IS}=\exp(\mathbb{E}_x[D_{KL}(p(y|x)||p(y))])

missä:

  • p(yx)p(y|x) on kuvan xx ehdollinen luokkajakauma
  • p(y)p(y) on marginaalinen luokkajakauma.
from torchmetrics.image.inception import InceptionScore

inception = InceptionScore()
inception.update(imgs)
inception.compute()

Fréchet Inception Distance (FID)

Mittaa aitojen ja tuotettujen kuvien jakaumien samankaltaisuutta piirre-embeddingien avulla.

FID=μrμg2+Tr(Σr+Σg2(ΣrΣg)1/2)\text{FID}=||\mu_r-\mu_g||^2+\text{Tr}(\Sigma_r + \Sigma_g - 2(\Sigma_r\Sigma_g)^{1/2})

missä:

  • μ\mu ja Σ\Sigma ovat piirre-esitysten keskiarvo ja kovarianssi.
  • Tr()\text{Tr}() tarkoittaa matriisin trassia — se on diagonaalielementtien summa. Trassi auttaa mittaamaan, kuinka erilaisia piirrejakaumat ovat levinneisyyden tai muodon suhteen.
from pytorch_fid import fid_score
    
fid = fid_score.calculate_fid_given_paths(["real_images", "generated_images"], batch_size=50, device="cuda", dims=2048)
print("FID:", fid)

LPIPS

Vertaa kuvien visuaalista samankaltaisuutta syväverkkojen piirteiden avulla.

import lpips
    
loss_fn = lpips.LPIPS(net='alex')
distance = loss_fn(img1, img2)
print("LPIPS Distance:", distance.item())

Tekstipohjaisten mallien arviointi (Transformers, GPT, BERT)

Kieligeneraatiomalleja arvioidaan laadun, johdonmukaisuuden ja osuvuuden perusteella tilastollisilla, semanttisilla ja subjektiivisilla mittareilla.

BLEU / ROUGE / METEOR

Vertaa n-grammien päällekkäisyyttä generoituun ja viitetekstiin.

BLEU=BPexp(n=1Nwnlogpn)\text{BLEU}=\text{BP} \cdot \exp\left(\sum^N_{n=1}w_n\log p_n\right)

missä:

  • pnp_n on n-grammien tarkkuus
  • BP\text{BP} on lyhyysrangaistus.
from nltk.translate.bleu_score import sentence_bleu
    
reference = [['the', 'cat', 'is', 'on', 'the', 'mat']]
candidate = ['the', 'cat', 'sat', 'on', 'the', 'mat']
    
score = sentence_bleu(reference, candidate)
print("BLEU Score:", score)

BERTScore

Mittaa semanttista samankaltaisuutta kontekstuaalisten upotusten avulla. Käyttää kosinietäisyyttä kontekstuaalisten upotusten välillä ja laskee tarkkuus/palautus/F1-yhteenvetoarvot.

from bert_score import score
    
cands = ["A cat sits on the mat."]
refs = ["The cat is on the mat."]
    
P, R, F1 = score(cands, refs, lang='en')
print(f"BERTScore F1: {F1.mean().item():.4f}")

Kehotteen uskollisuus

Mittaa ulostulon noudattamista syötekehotteisiin, erityisesti ohjeistukseen hienosäädetyissä malleissa.

Note
Huomio

Vertaa kehotteita ja ulostuloja manuaalisesti tai käytä samankaltaisuuspisteytysmalleja, kuten CLIP tai BERT.

Monimodaalisten mallien arviointi (esim. DALL·E, Stable Diffusion)

Monimodaaliset mallit tulee arvioida modaliteettien välisen yhteensopivuuden perusteella, kuten kuvan ja tekstin välillä.

CLIPScore

Laskee kuvan upotusten ja tekstikehotteen upotusten välisen samankaltaisuuden.

CLIPScores=cos(fimage, ftext)\text{CLIPScores}=cos(f_{image},\ f_{text})

missä ff ovat modaliteettikohtaisia upotuksia.

import torch
import clip
from PIL import Image

model, preprocess = clip.load("ViT-B/32")
image = preprocess(Image.open("generated.jpg")).unsqueeze(0)
text = clip.tokenize(["A dog playing in the snow"])

with torch.no_grad():
    image_features = model.encode_image(image)
    text_features = model.encode_text(text)
    similarity = torch.cosine_similarity(image_features, text_features)
print("CLIPScore:", similarity.item())

Kehote-kuva -vastaavuus

Arvioi, kuinka hyvin generoitu kuvat vastaavat annettuja kehotteita.

Note
Huomio

Käytä CLIP:iä tai manuaalista annotointia visuaalisen ja tekstuaalisen vastaavuuden arviointiin.

Ihmisen tekemä arviointi

Automaattisten mittareiden kehityksestä huolimatta ihmisen tekemä arviointi on edelleen välttämätöntä subjektiivisissa tai luovissa tehtävissä. Monet generoidut tuotokset, erityisesti taiteessa, tarinankerronnassa tai suunnittelussa, vaativat ihmisen arviointia merkityksellisyyden, omaperäisyyden ja vetovoiman osalta. Nämä menetelmät tarjoavat vivahteikkaampaa tietoa, jota automaattiset mittarit usein eivät tavoita.

A/B-testaus ja Turing-tyyliset asetelmat

Käyttäjiltä pyydetään valitsemaan kahdesta vaihtoehdosta mieluisampi tai aidommalta vaikuttava tulos.

  • Reaali­elämän esimerkki: OpenAI:n GPT-3 RLHF-prosessissa joukkoistajat näkivät useita mallin tuottamia vastauksia ja heidän tehtävänään oli järjestää tai valita hyödyllisin tai realistisin vaihtoehto. Tämä palaute ohjasi suoraan palkkiomallien kehitystä jatkohienosäätöä varten.

Kehotteen ja tuloksen vastaavuus

Subjektiivinen arvio siitä, kuinka hyvin tulos vastaa annettua kehotetta.

  • Reaali­elämän esimerkki: RLHF-koulutuksessa InstructGPT:lle arvioijat pisteyttivät vastauksia kehotteeseen, kuten "Kirjoita kohtelias sähköposti, jossa kieltäydyt työpaikkatarjouksesta." Ihmisten antamat pisteet määrittivät, mitkä tulokset vastasivat käyttäjän tarkoitusta ja tyyliä.

Arviointiasteikot

Kerätään arvioita asteikoilla (esim. 1–5) realistisuudesta, johdonmukaisuudesta tai luovuudesta.

  • Reaali­elämän esimerkki: Anthropicin Claude-arvioinneissa tutkijat keräsivät 1–5 tähden arvioita hyödyllisyydestä, rehellisyydestä ja haitattomuudesta keskustelujen tuotoksille, mikä tuki mallin suuntaamista tavoitteisiin.

Yhteisölähtöinen arviointi

Käytä alustoja kuten MTurk monipuolisten mielipiteiden keräämiseen. Varmista arvioijien yksimielisyys.

  • Käytännön esimerkki: Google hyödynsi laajamittaista joukkoistamista arvioidakseen LaMDA-chatbotin laatua ominaisuuksilla kuten järkevyys ja tarkkuus kokoamalla tuhansia käyttäjäarvioita.
Note
Opiskele lisää

Yhdistämällä automaattisia ja ihmiskeskeisiä arviointimenetelmiä saadaan kattavampi kuva generatiivisen mallin suorituskyvystä. Ihmisen näkemykset auttavat varmistamaan mittareiden luotettavuuden ja tunnistamaan hienovaraisia virhetapauksia, joita numeeriset mittarit eivät havaitse. Kriittisissä sovelluksissa useiden arvioijien yhdistäminen ja arvioijien välisen luotettavuuden laskeminen (esim. Cohenin kappa) voi parantaa tulosten luotettavuutta.

Yhteenveto

Nämä arviointistrategiat ovat välttämättömiä mallin kehityksen iteroinnissa ja käyttöönottoa koskevien päätösten ohjaamisessa. Objektiivisten mittareiden yhdistäminen ihmispalautteeseen auttaa kehittäjiä tasapainottamaan realismia, luovuutta, monimuotoisuutta sekä käyttäjän aikomusten tai tehtävävaatimusten mukaista kohdistusta. Tehokas arviointi varmistaa, että generatiiviset tekoälymallit eivät ainoastaan suoriudu teknisesti hyvin, vaan myös vastaavat todellisia käyttötapauksia ja ihmisten odotuksia.

1. Mikä seuraavista arviointimittareista käytetään ensisijaisesti mittaamaan generoituja kuvien monimuotoisuutta Generative Adversarial Networks (GANs) -malleissa?

2. Mikä on Fréchet Inception Distance (FID) -mittarin ensisijainen käyttötarkoitus generatiivisten mallien arvioinnissa?

3. Mitä mittaria käytetään yleisesti arvioimaan generoitujeen tekstin ja viitetekstin semanttista samankaltaisuutta?

question mark

Mikä seuraavista arviointimittareista käytetään ensisijaisesti mittaamaan generoituja kuvien monimuotoisuutta Generative Adversarial Networks (GANs) -malleissa?

Valitse oikea vastaus

question mark

Mikä on Fréchet Inception Distance (FID) -mittarin ensisijainen käyttötarkoitus generatiivisten mallien arvioinnissa?

Valitse oikea vastaus

question mark

Mitä mittaria käytetään yleisesti arvioimaan generoitujeen tekstin ja viitetekstin semanttista samankaltaisuutta?

Valitse oikea vastaus

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 3. Luku 3

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Osio 3. Luku 3
some-alt