Oppiskele Diffuusiomallit ja Probabilistiset Generatiiviset Lähestymistavat

Pyyhkäise näyttääksesi valikon

Diffuusiopohjaisen generoinnin ymmärtäminen

Diffuusiomallit ovat tehokkaita tekoälymalleja, jotka tuottavat dataa – erityisesti kuvia – oppimalla, kuinka satunnaisen kohinan lisäämisprosessi voidaan kääntää. Kuvittele, että katsot puhdasta kuvaa, joka muuttuu vähitellen epäselväksi kuin television lumisade. Diffuusiomalli oppii tekemään päinvastoin: se ottaa kohinaisia kuvia ja rekonstruoi alkuperäisen kuvan poistamalla kohinaa vaihe vaiheelta.

Prosessi sisältää kaksi päävaihetta:

Etenevä prosessi (diffuusio): lisää vähitellen satunnaista kohinaa kuvaan useiden vaiheiden aikana, kunnes kuva muuttuu täysin kohinaiseksi;
Käänteinen prosessi (kohinanpoisto): neuroverkko oppii poistamaan kohinan vaiheittain, rekonstruoiden alkuperäisen kuvan kohinaisesta versiosta.

Diffuusiomallit tunnetaan kyvystään tuottaa korkealaatuisia, realistisia kuvia. Niiden koulutus on tyypillisesti vakaampaa verrattuna esimerkiksi GAN-malleihin, mikä tekee niistä houkuttelevia nykyaikaisessa generatiivisessa tekoälyssä.

Kohinanpoistoon perustuvat diffuusioprobabilistiset mallit (DDPM)

Kohinanpoistoon perustuvat diffuusioprobabilistiset mallit (DDPM) ovat suosittu diffuusiomallityyppi, joka hyödyntää probabilistisia periaatteita ja syväoppimista poistaakseen kohinaa kuvista vaiheittain.

Eteenpäin suuntautuva prosessi

Eteenpäin suuntautuvassa prosessissa aloitetaan aidosta kuvasta $x_0$ ja lisätään asteittain Gaussin kohinaa $T$ aikavälin aikana:

q(x_t|x_{t-1})= \mathcal{N}(x_t;\sqrt{1-\beta_t}x_{t-1},\beta_tI)

Missä:

$x_t$ : syötteen kohinainen versio aikavälillä;
$\beta_t$ : pieni varianssiaikataulu, joka määrittää lisättävän kohinan määrän;
$\mathcal{N}$ : Gaussin jakauma.

Kokonaiskohinan määrän tiettyyn askeleeseen asti voidaan ilmaista myös seuraavasti:

q(x_t|x_0)= \mathcal{N}(x_t;\sqrt{\={\alpha}_t}x_0,(1-\={\alpha}_t)I)

Missä:

$\=\alpha_t=\prod_{s=1}^t(1-\beta_s)$

Käänteinen prosessi

Mallin tavoitteena on oppia tämän prosessin käänteinen kulku. Neuroverkko, jonka parametreina on $\theta$ , ennustaa denoisoidun jakauman keskiarvon ja varianssin:

p_\theta(x_{t-1}|x_t) = \mathcal{N}(x_{t-1};\mu_\theta(x_t,t), \Sigma_\theta(x_t,t))

missä:

$x_t$ : kohinainen kuva ajanhetkellä $t$ ;
$x_{t-1}$ : ennustettu vähemmän kohinainen kuva ajanhetkellä $t-1$ ;
$\mu_\theta$ : neuroverkon ennustama keskiarvo;
$\Sigma_\theta$ : neuroverkon ennustama varianssi.

Tappiofunktio

Koulutus perustuu todellisen kohinan ja mallin ennustaman kohinan välisen eron minimointiin seuraavan tavoitteen avulla:

L_{simple} = \mathbb{E}_{x_0, \epsilon, t} \left[ ||\epsilon - \epsilon_0 \left( \sqrt{\=\alpha_t}x_0 + \sqrt{1-\=\alpha_t}\epsilon, t \right)||^2 \right]

missä:

$x_t$ : alkuperäinen syötekuva;
$\epsilon$ : satunnainen Gaussin kohina;
$t$ : diffuusion aikaleima;
$\epsilon_\theta$ : neuroverkon kohinaennuste;
$\={\alpha}_t$ : kohina-aikataulun parametrien tulo vaiheeseen $t$ asti.

Tämä auttaa mallia parantamaan denoisauskykyään ja tuottamaan realistisempaa dataa.

Score-pohjainen generatiivinen mallinnus

Score-pohjaiset mallit ovat toinen diffuusiomallien luokka. Sen sijaan, että ne oppisivat suoraan käänteisen kohinaprosessin, ne oppivat score-funktion:

\nabla_x\log{p(x)}

missä:

$\nabla_x\log{p(x)}$ : logaritmisen todennäköisyystiheyden gradientti syötteen $x$ suhteen. Tämä osoittaa suuntaan, jossa datan jakauman todennäköisyys kasvaa;
$p(x)$ : datan todennäköisyysjakauma.

Tämä funktio kertoo mallille, mihin suuntaan kuvaa tulisi muuttaa, jotta se muistuttaisi enemmän oikeaa dataa. Näissä malleissa käytetään sitten näytteenottomenetelmää, kuten Langevin-dynamiikkaa, jolla kohinaista dataa siirretään asteittain kohti korkean todennäköisyyden alueita.

Score-pohjaiset mallit toimivat usein jatkuvassa ajassa käyttäen stokastisia differentiaaliyhtälöitä (SDE). Tämä jatkuva lähestymistapa tarjoaa joustavuutta ja mahdollistaa korkealaatuisen generoinnin erilaisille datatyypeille.

Sovellukset korkean resoluution kuvageneroinnissa

Diffuusiomallit ovat mullistaneet generatiiviset tehtävät, erityisesti korkean resoluution visuaalisessa generoinnissa. Merkittäviä sovelluksia ovat:

Stable Diffusion: latenttidiffuusiomalli, joka tuottaa kuvia tekstisyötteistä. Malli yhdistää U-Net-pohjaisen kohinanpoistomallin ja variaatioautokooderin (VAE) toimiakseen latentissa tilassa;
DALL·E 2: yhdistää CLIP-upotukset ja diffuusiopohjaisen dekoodauksen tuottaakseen erittäin realistisia ja semanttisia kuvia tekstistä;
MidJourney: diffuusiopohjainen kuvagenerointialusta, joka tunnetaan korkealaatuisten, taiteellisesti tyyliteltyjen visuaalien tuottamisesta abstrakteista tai luovista syötteistä.

Näitä malleja käytetään taiteen generoinnissa, valokuvarealistisessa synteesissä, täydennyksessä, superresoluutiossa ja muissa sovelluksissa.

Yhteenveto

Diffuusiomallit määrittelevät uuden aikakauden generatiivisessa mallinnuksessa käsittelemällä datan generointia käänteisenä stokastisena prosessina. DDPM- ja score-pohjaisten mallien avulla saavutetaan vankka oppiminen, korkea näyteiden laatu ja vaikuttavia tuloksia eri modaliteeteissa. Niiden pohjautuminen todennäköisyys- ja termodynamiikan periaatteisiin tekee niistä sekä matemaattisesti elegantteja että käytännössä tehokkaita.

Oliko kaikki selvää?

Kiitos palautteestasi!

Osio 2. Luku 9

Kysy tekoälyä

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Osio 2. Luku 9

Diffuusiomallit ja Probabilistiset Generatiiviset Lähestymistavat

Diffuusiopohjaisen generoinnin ymmärtäminen

Kohinanpoistoon perustuvat diffuusioprobabilistiset mallit (DDPM)

Eteenpäin suuntautuva prosessi

Käänteinen prosessi

Tappiofunktio

Score-pohjainen generatiivinen mallinnus

Sovellukset korkean resoluution kuvageneroinnissa

Yhteenveto

1. Mikä on diffuusiopohjaisten generatiivisten mallien perusidea?

2. Mitä DDPM:n eteenpäinprosessi käyttää kohinan lisäämiseen jokaisessa vaiheessa?

3. Mikä seuraavista kuvaa parhaiten score-funktion $\nabla_x\log{p(x)}$ roolia score-pohjaisessa generatiivisessa mallinnuksessa?

Diffuusiomallit ja Probabilistiset Generatiiviset Lähestymistavat

Diffuusiopohjaisen generoinnin ymmärtäminen

Kohinanpoistoon perustuvat diffuusioprobabilistiset mallit (DDPM)

Eteenpäin suuntautuva prosessi

Käänteinen prosessi

Tappiofunktio

Score-pohjainen generatiivinen mallinnus

Sovellukset korkean resoluution kuvageneroinnissa

Yhteenveto

1. Mikä on diffuusiopohjaisten generatiivisten mallien perusidea?

2. Mitä DDPM:n eteenpäinprosessi käyttää kohinan lisäämiseen jokaisessa vaiheessa?

3. Mikä seuraavista kuvaa parhaiten score-funktion ∇xlog⁡p(x)\nabla_x\log{p(x)}∇x​logp(x) roolia score-pohjaisessa generatiivisessa mallinnuksessa?

3. Mikä seuraavista kuvaa parhaiten score-funktion $\nabla_x\log{p(x)}$ roolia score-pohjaisessa generatiivisessa mallinnuksessa?