Oppiskele Variationaaliset Autoenkooderit (VAE:t)

Pyyhkäise näyttääksesi valikon

Autokooderit ja variaatiolliset autokooderit

Autokooderit ovat neuroverkkoja, jotka on suunniteltu oppimaan tehokkaita esityksiä datasta koodaus- ja dekoodausprosessien avulla. Tavallinen autokooderi koostuu kahdesta osasta:

Kooderi: pakkaa syötteen matalamman ulottuvuuden esitykseksi.
Dekooderi: rekonstruoi alkuperäisen datan pakatusta esityksestä.

Perinteiset autokooderit oppivat deterministisiä kuvauksia, eli ne pakkaavat datan kiinteään latenttiin tilaan. Ne kuitenkin kohtaavat haasteita monipuolisten tulosten tuottamisessa, koska niiden latentti tila on rakenteeton ja epäsileä.

Eroavaisuudet tavallisten autokoodereiden ja VAE-mallien välillä

Variaatiolliset autokooderit (VAE:t) parantavat tavallisia autokoodereita ottamalla käyttöön todennäköisyyspohjaisen latenttitilan, mikä mahdollistaa rakenteellisen ja merkityksellisen uuden datan generoinnin.

Kooderin-dekooderin rakenne ja latenttitilan esitys

VAE-mallit koostuvat kahdesta pääosasta:

Kooderi: Määrittää syötedatan todennäköisyysjakauman alemman ulottuvuuden latenttitilaan $z$ .
Dekooderi: Ottaa näytteitä latenttitilasta ja rekonstruoi syötedatan.

Matemaattinen muotoilu:

Kooderi tuottaa latenttitilalle keskiarvon ja varianssin:

\mu = f_\mu (x; \theta)

\sigma^2 = f_\sigma (x; \theta)

missä:

$\mu$ tarkoittaa latenttitilan jakauman keskiarvoa;
$\sigma^2$ tarkoittaa varianssia;
$f_\mu$ ja $f_\sigma$ ovat funktioita, jotka on parametrisoitu $\theta$ :lla, ja ne toteutetaan tyypillisesti neuroverkoilla.

Sen sijaan, että nämä parametrit syötettäisiin suoraan dekooderille, otetaan näyte Gaussin jakaumasta käyttäen reparametrisointikikkaa:

z = \mu + \sigma \odot \epsilon,

\epsilon \sim \mathcal{N}(0, I)

missä:

$\odot$ tarkoittaa alkioittain tapahtuvaa kertolaskua;
$\epsilon$ on satunnaismuuttuja, joka on otettu standardin normaalijakauman mukaan.

Tämä kikka mahdollistaa gradienttien kulun näytteenoton läpi, jolloin takaisinkuljetus (backpropagation) on mahdollista. Ilman tätä kikkaa stokastinen näytteenotto estäisi gradienttipohjaisen oppimisen.

Dekooderi rekonstruoi syötteen muuttujasta $z$ oppimalla funktion $g(z; \phi)$ , joka tuottaa datanjakauman parametrit. Dekooderiverkkoa koulutetaan minimoimaan rekonstruoidun ja alkuperäisen datan välinen ero, mikä varmistaa korkealaatuiset rekonstruktiot.

Todennäköisyysmallinnus VAE-malleissa

VAE-mallit perustuvat Bayesin päättelyyn, jonka avulla ne mallintavat havaittujen tietojen $x$ ja latenttien muuttujien $z$ välistä suhdetta todennäköisyysjakaumien avulla. Perusperiaate pohjautuu Bayesin kaavaan:

P(z|x)= \frac{P(x|z)P(z)}{P(x)}

Koska $p(x)$ laskeminen vaatii integrointia kaikkien mahdollisten latenttien muuttujien yli, mikä on laskennallisesti mahdotonta, VAE-mallit approksimoivat posteriorin $p(z∣x)$ yksinkertaisemmalla funktiolla $q(z∣x)$ , mahdollistaen tehokkaan päättelyn.

Evidence Lower Bound (ELBO)

Sen sijaan, että maksimoitaisiin laskennallisesti mahdoton marginaalitodennäköisyys $p(x)$ , VAE-mallit maksimoivat sen alarajan, jota kutsutaan nimellä Evidence Lower Bound (ELBO):

\log{p(x)} \ge \mathbb{E}_{q(z|x)} \left[ \log{p(x|z)} \right] - D_{KL} (q (z | x) || p(z))

missä:

Ensimmäinen termi, $\mathbb{E}_{q(z|x)}[\log{p(x|z)}]$ , on rekonstruointihäviö, joka varmistaa, että ulostulo muistuttaa syötettä;
Toinen termi, $D_{KL}(q(z|x)\ ||\ p(z))$ , on KL-divergenssi, joka säännöllistää latenttitilan varmistamalla, että $q(z∣x)$ pysyy lähellä prioria $p(z)$ .

Tasapainottamalla näitä kahta termiä, VAE:t saavuttavat tasapainon tarkan rekonstruoinnin ja sujuvan latenttitilan esityksen välillä.

VAE:iden sovellukset

1. Poikkeavuuksien tunnistus

VAE:t voivat oppia datan normaalin rakenteen. Kohdatessaan poikkeavia syötteitä, malli ei kykene rekonstruoimaan niitä hyvin, mikä johtaa suurempiin rekonstruointivirheisiin, joita voidaan käyttää poikkeamien tunnistamiseen.

2. Kuvien synteesi

VAE:t voivat generoida uusia kuvia ottamalla näytteitä opitusta latenttitilasta. Niitä käytetään laajasti sovelluksissa kuten:

Kasvojen generointi (esim. uusien ihmiskasvojen luominen);
Tyylinsiirto (esim. taiteellisten tyylien yhdistäminen).

3. Tekstin generointi

VAE:t voidaan mukauttaa luonnollisen kielen käsittelyn (NLP) tehtäviin, joissa niitä käytetään tuottamaan monipuolisia ja johdonmukaisia tekstijonoja.

4. Lääkeaineiden kehitys

VAE:itä on sovellettu bioinformatiikassa ja lääkeaineiden kehityksessä, missä ne generoivat molekyylirakenteita halutuilla ominaisuuksilla.

Yhteenveto

Variational Autoencoders ovat tehokas generatiivisten mallien luokka, joka tuo todennäköisyysmallinnuksen autoenkoodereihin. Niiden kyky tuottaa monipuolista ja realistista dataa on tehnyt niistä keskeisen osan modernissa generatiivisessa tekoälyssä.

Perinteisiin autoenkoodereihin verrattuna VAE:t tarjoavat rakenteellisen latenttitilan, mikä parantaa generatiivisia ominaisuuksia. Tutkimuksen edetessä VAE:t jatkavat keskeistä roolia tekoälysovelluksissa, kattaen tietokonenäön, NLP:n ja muut alat.

1. Mikä on tärkein ero tavallisen autoenkooderin ja variational autoenkooderin (VAE) välillä?

2. Mikä on KL-divergenssitermin rooli VAE:n tappiofunktiossa?

3. Miksi reparametrisointikikka on tarpeellinen VAE:issa?

4. Mikä seuraavista kuvaa parhaiten ELBO:a (Evidence Lower Bound) VAE-malleissa?

5. Mikä seuraavista EI ole yleinen VAE-mallien käyttökohde?

Oliko kaikki selvää?

Kiitos palautteestasi!

Osio 1. Luku 7

Kysy tekoälyä

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Osio 1. Luku 7