Diffuusiomallit ja Todennäköisyyspohjaiset Generatiiviset Lähestymistavat

Diffuusiopohjaisen generoinnin ymmärtäminen

Diffuusiomallit ovat tehokkaita tekoälymalleja, jotka tuottavat dataa – erityisesti kuvia – oppimalla, kuinka satunnaisen kohinan lisäämisprosessi voidaan kääntää. Kuvittele, että katsot puhdasta kuvaa, joka vähitellen muuttuu epäselväksi kuin television lumisade. Diffuusiomalli oppii tekemään päinvastoin: se ottaa kohinaisia kuvia ja rekonstruoi alkuperäisen kuvan poistamalla kohinaa vaihe vaiheelta.

Prosessi koostuu kahdesta päävaiheesta:

Etenevä prosessi (diffuusio): lisää vähitellen satunnaista kohinaa kuvaan useiden vaiheiden aikana, kunnes se muuttuu pelkäksi kohinaksi;
Käänteinen prosessi (kohinanpoisto): neuroverkko oppii poistamaan kohinaa vaiheittain, rekonstruoiden alkuperäisen kuvan kohinaisesta versiosta.

Diffuusiomallit tunnetaan kyvystään tuottaa korkealaatuisia ja realistisia kuvia. Niiden koulutus on tyypillisesti vakaampaa verrattuna esimerkiksi GAN-malleihin, mikä tekee niistä erittäin houkuttelevia nykyaikaisessa generatiivisessa tekoälyssä.

Kohinanpoistoon perustuvat diffuusioprobabilistiset mallit (DDPM)

Kohinanpoistoon perustuvat diffuusioprobabilistiset mallit (DDPM) ovat suosittu diffuusiomallityyppi, joka hyödyntää probabilistisia periaatteita ja syväoppimista poistaakseen kohinaa kuvista vaiheittain.

Eteenpäin suuntautuva prosessi

Eteenpäin suuntautuvassa prosessissa aloitetaan aidosta kuvasta $x_0$ ja lisätään asteittain Gaussin kohinaa $T$ aikavälin aikana:

q(x_t|x_{t-1})= \mathcal{N}(x_t;\sqrt{1-\beta_t}x_{t-1},\beta_tI)

Missä:

$x_t$ : syötteen kohinainen versio aikavälillä;
$\beta_t$ : pieni varianssiaikataulu, joka määrittää lisättävän kohinan määrän;
$\mathcal{N}$ : Gaussin jakauma.

Kokonaiskohinan määrän tiettyyn askeleeseen asti voidaan ilmaista myös seuraavasti:

q(x_t|x_0)= \mathcal{N}(x_t;\sqrt{\={\alpha}_t}x_0,(1-\={\alpha}_t)I)

Missä:

$\=\alpha_t=\prod_{s=1}^t(1-\beta_s)$

Käänteinen prosessi

Mallin tavoitteena on oppia tämän prosessin käänteinen suunta. Neuroverkko, jonka parametreina on $\theta$ , ennustaa denoisoidun jakauman keskiarvon ja varianssin:

p_\theta(x_{t-1}|x_t) = \mathcal{N}(x_{t-1};\mu_\theta(x_t,t), \Sigma_\theta(x_t,t))

missä:

$x_t$ : kohinainen kuva ajanhetkellä $t$ ;
$x_{t-1}$ : ennustettu vähemmän kohinainen kuva hetkellä $t-1$ ;
$\mu_\theta$ : neuroverkon ennustama keskiarvo;
$\Sigma_\theta$ : neuroverkon ennustama varianssi.

Häviöfunktio

Koulutus perustuu todellisen kohinan ja mallin ennustaman kohinan välisen eron minimointiin seuraavalla tavoitteella:

L_{simple} = \mathbb{E}_{x_0, \epsilon, t} \left[ ||\epsilon - \epsilon_0 \left( \sqrt{\=\alpha_t}x_0 + \sqrt{1-\=\alpha_t}\epsilon, t \right)||^2 \right]

missä:

$x_t$ : alkuperäinen syötekuva;
$\epsilon$ : satunnainen Gaussin kohina;
$t$ : diffuusion aikaleima;
$\epsilon_\theta$ : neuroverkon kohinaennuste;
$\={\alpha}_t$ : Kohina-aikataulun parametrien tulo vaiheeseen $t$ asti.

Tämä auttaa mallia parantamaan denoisauskykyään ja siten tuottamaan realistisempaa dataa.

Score-pohjainen generatiivinen mallinnus

Score-pohjaiset mallit ovat toinen diffuusiomallien luokka. Sen sijaan, että ne oppisivat suoraan käänteisen kohinaprosessin, ne oppivat score-funktion:

\nabla_x\log{p(x)}

missä:

$\nabla_x\log{p(x)}$ : log-todennäköisyystiheyden gradientti syötteen $x$ suhteen. Tämä osoittaa suuntaan, jossa todennäköisyys datajakauman alla kasvaa;
$p(x)$ : datan todennäköisyysjakauma.

Tämä funktio kertoo mallille, mihin suuntaan kuvaa tulisi muuttaa, jotta siitä tulisi aidomman datan kaltainen. Näissä malleissa käytetään sitten näytteenottomenetelmää, kuten Langevin-dynamiikkaa, jolla kohinaista dataa siirretään asteittain kohti korkean todennäköisyyden datan alueita.

Score-pohjaiset mallit toimivat usein jatkuvassa ajassa käyttäen stokastisia differentiaaliyhtälöitä (SDE). Tämä jatkuva lähestymistapa tarjoaa joustavuutta ja mahdollistaa korkealaatuisen generoinnin erilaisille datatyypeille.

Sovellukset korkean resoluution kuvageneroinnissa

Diffuusiomallit ovat mullistaneet generatiiviset tehtävät, erityisesti korkean resoluution visuaalisessa generoinnissa. Merkittäviä sovelluksia ovat:

Stable Diffusion: latenttidiffuusiomalli, joka tuottaa kuvia tekstisyötteistä. Se yhdistää U-Net-pohjaisen kohinanpoistomallin ja varianssia pienentävän autoenkooderin (VAE) toimiakseen latentissa tilassa;
DALL·E 2: yhdistää CLIP-upotukset ja diffuusiopohjaisen dekoodauksen tuottaakseen erittäin realistisia ja semanttisia kuvia tekstistä;
MidJourney: Diffuusiopohjainen kuvagenerointialusta, joka tunnetaan korkealaatuisten, taiteellisesti tyyliteltyjen visuaalien tuottamisesta abstrakteista tai luovista syötteistä.

Näitä malleja käytetään taiteen generoinnissa, fotorealistisessa synteesissä, inpaintingissa, super-resoluutiossa ja muissa sovelluksissa.

Yhteenveto

Diffuusiomallit määrittelevät uuden aikakauden generatiivisessa mallinnuksessa käsittelemällä datan generointia käänteisenä stokastisena prosessina. DDPM-mallien ja score-pohjaisten mallien avulla saavutetaan vankka oppiminen, korkea näyteiden laatu ja vaikuttavat tulokset eri modaliteeteissa. Niiden pohjautuminen todennäköisyys- ja termodynamiikan periaatteisiin tekee niistä sekä matemaattisesti elegantteja että käytännössä tehokkaita.

Oliko kaikki selvää?

Kiitos palautteestasi!

Osio 1. Luku 10

Diffuusiomallit ja Todennäköisyyspohjaiset Generatiiviset Lähestymistavat

Diffuusiopohjaisen generoinnin ymmärtäminen

Kohinanpoistoon perustuvat diffuusioprobabilistiset mallit (DDPM)

Eteenpäin suuntautuva prosessi

Käänteinen prosessi

Häviöfunktio

Score-pohjainen generatiivinen mallinnus

Sovellukset korkean resoluution kuvageneroinnissa

Yhteenveto

1. Mikä on diffuusiopohjaisten generatiivisten mallien perusidea?

2. Mitä DDPM:n etuprosessi käyttää kohinan lisäämiseen jokaisessa vaiheessa?

3. Mikä seuraavista kuvaa parhaiten score-funktion $\nabla_x\log{p(x)}$ roolia score-pohjaisessa generatiivisessa mallinnuksessa?

Diffuusiomallit ja Todennäköisyyspohjaiset Generatiiviset Lähestymistavat

Diffuusiopohjaisen generoinnin ymmärtäminen

Kohinanpoistoon perustuvat diffuusioprobabilistiset mallit (DDPM)

Eteenpäin suuntautuva prosessi

Käänteinen prosessi

Häviöfunktio

Score-pohjainen generatiivinen mallinnus

Sovellukset korkean resoluution kuvageneroinnissa

Yhteenveto

Diffuusiomallit ja Todennäköisyyspohjaiset Generatiiviset Lähestymistavat

Diffuusiopohjaisen generoinnin ymmärtäminen

Kohinanpoistoon perustuvat diffuusioprobabilistiset mallit (DDPM)

Eteenpäin suuntautuva prosessi

Käänteinen prosessi

Häviöfunktio

Score-pohjainen generatiivinen mallinnus

Sovellukset korkean resoluution kuvageneroinnissa

Yhteenveto

1. Mikä on diffuusiopohjaisten generatiivisten mallien perusidea?

2. Mitä DDPM:n etuprosessi käyttää kohinan lisäämiseen jokaisessa vaiheessa?

3. Mikä seuraavista kuvaa parhaiten score-funktion ∇xlog⁡p(x)\nabla_x\log{p(x)}∇x​logp(x) roolia score-pohjaisessa generatiivisessa mallinnuksessa?

Diffuusiomallit ja Todennäköisyyspohjaiset Generatiiviset Lähestymistavat

Diffuusiopohjaisen generoinnin ymmärtäminen

Kohinanpoistoon perustuvat diffuusioprobabilistiset mallit (DDPM)

Eteenpäin suuntautuva prosessi

Käänteinen prosessi

Häviöfunktio

Score-pohjainen generatiivinen mallinnus

Sovellukset korkean resoluution kuvageneroinnissa

Yhteenveto

3. Mikä seuraavista kuvaa parhaiten score-funktion $\nabla_x\log{p(x)}$ roolia score-pohjaisessa generatiivisessa mallinnuksessa?