Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Diffuusiomallit ja Probabilistiset Generatiiviset Lähestymistavat | Teoreettiset Perusteet
Generatiivinen Tekoäly

bookDiffuusiomallit ja Probabilistiset Generatiiviset Lähestymistavat

Diffuusiopohjaisen generoinnin ymmärtäminen

Diffuusiomallit ovat tehokkaita tekoälymalleja, jotka tuottavat dataa – erityisesti kuvia – oppimalla, kuinka satunnaisen kohinan lisäämisprosessi voidaan kääntää. Kuvittele, että katsot puhdasta kuvaa, joka vähitellen muuttuu epäselväksi kuin television lumisade. Diffuusiomalli oppii tekemään päinvastoin: se ottaa kohinaisia kuvia ja rekonstruoi alkuperäisen kuvan poistamalla kohinaa vaihe vaiheelta.

Prosessi sisältää kaksi päävaihetta:

  • Etenevä prosessi (diffuusio): lisää vähitellen satunnaista kohinaa kuvaan useiden vaiheiden aikana, kunnes kuva muuttuu täysin kohinaiseksi;
  • Käänteinen prosessi (kohinanpoisto): neuroverkko oppii poistamaan kohinan vaiheittain, rekonstruoiden alkuperäisen kuvan kohinaisesta versiosta.

Diffuusiomallit tunnetaan kyvystään tuottaa korkealaatuisia, realistisia kuvia. Niiden koulutus on tyypillisesti vakaampaa verrattuna esimerkiksi GAN-malleihin, mikä tekee niistä erittäin houkuttelevia nykyaikaisessa generatiivisessa tekoälyssä.

Kohinanpoistoon perustuvat diffuusioprobabilistiset mallit (DDPM)

Kohinanpoistoon perustuvat diffuusioprobabilistiset mallit (DDPM) ovat suosittu diffuusiomallityyppi, joka hyödyntää probabilistisia periaatteita ja syväoppimista poistaakseen kohinaa kuvista vaiheittain.

Eteenpäin suuntautuva prosessi

Eteenpäin suuntautuvassa prosessissa aloitetaan aidosta kuvasta x0x_0 ja lisätään asteittain Gaussin kohinaa TT aikavälin aikana:

q(xtxt1)=N(xt;1βtxt1,βtI)q(x_t|x_{t-1})= \mathcal{N}(x_t;\sqrt{1-\beta_t}x_{t-1},\beta_tI)

Missä:

  • xtx_t: syötteen kohinainen versio aikavälillä;
  • βt\beta_t: pieni varianssiaikataulu, joka määrittää lisättävän kohinan määrän;
  • N\mathcal{N}: Gaussin jakauma.

Kokonaiskohinan määrän aikaväliin asti voidaan ilmaista seuraavasti:

q(xtx0)=N(xt;αˉtx0,(1αˉt)I)q(x_t|x_0)= \mathcal{N}(x_t;\sqrt{\={\alpha}_t}x_0,(1-\={\alpha}_t)I)

Missä:

  • αˉt=s=1t(1βs)\=\alpha_t=\prod_{s=1}^t(1-\beta_s)

Käänteinen prosessi

Mallin tavoitteena on oppia tämän prosessin käänteinen suunta. Neuroverkko, jonka parametreina on θ\theta, ennustaa denoisoidun jakauman keskiarvon ja varianssin:

pθ(xt1xt)=N(xt1;μθ(xt,t),Σθ(xt,t))p_\theta(x_{t-1}|x_t) = \mathcal{N}(x_{t-1};\mu_\theta(x_t,t), \Sigma_\theta(x_t,t))

missä:

  • xtx_t: kohinainen kuva ajanhetkellä tt;
  • xt1x_{t-1}: ennustettu vähemmän kohinainen kuva ajanhetkellä t1t-1;
  • μθ\mu_\theta: neuroverkon ennustama keskiarvo;
  • Σθ\Sigma_\theta: neuroverkon ennustama varianssi.

Tappiofunktio

Koulutus perustuu todellisen kohinan ja mallin ennustaman kohinan välisen eron minimointiin seuraavan tavoitteen avulla:

Lsimple=Ex0,ϵ,t[ϵϵ0(αˉtx0+1αˉtϵ,t)2]L_{simple} = \mathbb{E}_{x_0, \epsilon, t} \left[ ||\epsilon - \epsilon_0 \left( \sqrt{\=\alpha_t}x_0 + \sqrt{1-\=\alpha_t}\epsilon, t \right)||^2 \right]

missä:

  • xtx_t: alkuperäinen syötekuva;
  • ϵ\epsilon: satunnainen Gaussin kohina;
  • tt: diffuusion aikaleima;
  • ϵθ\epsilon_\theta: neuroverkon kohinaennuste;
  • αˉt\={\alpha}_t: kohinasuunnitelman parametrien tulo vaiheeseen tt asti.

Tämä auttaa mallia parantamaan denoisointikykyään ja tuottamaan realistisempaa dataa.

Score-pohjainen generatiivinen mallinnus

Score-pohjaiset mallit ovat toinen diffuusiomallien luokka. Sen sijaan, että ne oppisivat suoraan käänteisen kohinaprosessin, ne oppivat score-funktion:

xlogp(x)\nabla_x\log{p(x)}

missä:

  • xlogp(x)\nabla_x\log{p(x)}: logaritmisen todennäköisyystiheyden gradientti syötteen xx suhteen. Tämä osoittaa siihen suuntaan, jossa datan jakauman todennäköisyys kasvaa;
  • p(x)p(x): datan todennäköisyysjakauma.

Tämä funktio kertoo mallille, mihin suuntaan kuvaa tulisi muuttaa, jotta se muistuttaisi enemmän oikeaa dataa. Näissä malleissa käytetään sitten näytteenottomenetelmää, kuten Langevinin dynamiikkaa, jolla kohinaista dataa siirretään asteittain kohti korkean todennäköisyyden datan alueita.

Score-pohjaiset mallit toimivat usein jatkuvassa ajassa käyttäen stokastisia differentiaaliyhtälöitä (SDE). Tämä jatkuva lähestymistapa tarjoaa joustavuutta ja mahdollistaa korkealaatuisen generoinnin erilaisille datatyypeille.

Sovellukset korkean resoluution kuvageneroinnissa

Diffuusiomallit ovat mullistaneet generatiiviset tehtävät, erityisesti korkean resoluution visuaalisessa generoinnissa. Merkittäviä sovelluksia ovat:

  • Stable Diffusion: latenttidiffuusiomalli, joka tuottaa kuvia tekstisyötteistä. Malli yhdistää U-Net-pohjaisen kohinanpoistomallin ja variaatioautokooderin (VAE) toimiakseen latentissa tilassa;
  • DALL·E 2: yhdistää CLIP-upotukset ja diffuusiopohjaisen dekoodauksen tuottaakseen erittäin realistisia ja semanttisia kuvia tekstistä;
  • MidJourney: Diffuusiopohjainen kuvagenerointialusta, joka tunnetaan korkealaatuisten, taiteellisesti tyyliteltyjen visuaalien tuottamisesta abstrakteista tai luovista syötteistä.

Näitä malleja käytetään taiteen generoinnissa, fotorealistisessa synteesissä, inpaintingissa, super-resoluutiossa ja muissa sovelluksissa.

Yhteenveto

Diffuusiomallit määrittelevät uuden aikakauden generatiivisessa mallinnuksessa käsittelemällä datan generointia käänteisenä stokastisena prosessina. DDPM- ja score-pohjaisten mallien avulla saavutetaan vankka oppiminen, korkea näyteiden laatu ja vaikuttavat tulokset eri modaliteeteissa. Niiden pohjautuminen todennäköisyys- ja termodynamiikan periaatteisiin tekee niistä sekä matemaattisesti elegantteja että käytännössä tehokkaita.

1. Mikä on diffuusiopohjaisten generatiivisten mallien perusidea?

2. Mitä DDPM:n etenevä prosessi käyttää kohinan lisäämiseen jokaisessa vaiheessa?

3. Mikä seuraavista kuvaa parhaiten score-funktion xlogp(x)\nabla_x\log{p(x)} roolia score-pohjaisessa generatiivisessa mallinnuksessa?

question mark

Mikä on diffuusiopohjaisten generatiivisten mallien perusidea?

Select the correct answer

question mark

Mitä DDPM:n etenevä prosessi käyttää kohinan lisäämiseen jokaisessa vaiheessa?

Select the correct answer

question mark

Mikä seuraavista kuvaa parhaiten score-funktion xlogp(x)\nabla_x\log{p(x)} roolia score-pohjaisessa generatiivisessa mallinnuksessa?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 2. Luku 9

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Suggested prompts:

Can you explain the difference between DDPMs and score-based models?

How does the reverse process actually reconstruct the original image?

What are some challenges or limitations of diffusion models?

Awesome!

Completion rate improved to 4.76

bookDiffuusiomallit ja Probabilistiset Generatiiviset Lähestymistavat

Pyyhkäise näyttääksesi valikon

Diffuusiopohjaisen generoinnin ymmärtäminen

Diffuusiomallit ovat tehokkaita tekoälymalleja, jotka tuottavat dataa – erityisesti kuvia – oppimalla, kuinka satunnaisen kohinan lisäämisprosessi voidaan kääntää. Kuvittele, että katsot puhdasta kuvaa, joka vähitellen muuttuu epäselväksi kuin television lumisade. Diffuusiomalli oppii tekemään päinvastoin: se ottaa kohinaisia kuvia ja rekonstruoi alkuperäisen kuvan poistamalla kohinaa vaihe vaiheelta.

Prosessi sisältää kaksi päävaihetta:

  • Etenevä prosessi (diffuusio): lisää vähitellen satunnaista kohinaa kuvaan useiden vaiheiden aikana, kunnes kuva muuttuu täysin kohinaiseksi;
  • Käänteinen prosessi (kohinanpoisto): neuroverkko oppii poistamaan kohinan vaiheittain, rekonstruoiden alkuperäisen kuvan kohinaisesta versiosta.

Diffuusiomallit tunnetaan kyvystään tuottaa korkealaatuisia, realistisia kuvia. Niiden koulutus on tyypillisesti vakaampaa verrattuna esimerkiksi GAN-malleihin, mikä tekee niistä erittäin houkuttelevia nykyaikaisessa generatiivisessa tekoälyssä.

Kohinanpoistoon perustuvat diffuusioprobabilistiset mallit (DDPM)

Kohinanpoistoon perustuvat diffuusioprobabilistiset mallit (DDPM) ovat suosittu diffuusiomallityyppi, joka hyödyntää probabilistisia periaatteita ja syväoppimista poistaakseen kohinaa kuvista vaiheittain.

Eteenpäin suuntautuva prosessi

Eteenpäin suuntautuvassa prosessissa aloitetaan aidosta kuvasta x0x_0 ja lisätään asteittain Gaussin kohinaa TT aikavälin aikana:

q(xtxt1)=N(xt;1βtxt1,βtI)q(x_t|x_{t-1})= \mathcal{N}(x_t;\sqrt{1-\beta_t}x_{t-1},\beta_tI)

Missä:

  • xtx_t: syötteen kohinainen versio aikavälillä;
  • βt\beta_t: pieni varianssiaikataulu, joka määrittää lisättävän kohinan määrän;
  • N\mathcal{N}: Gaussin jakauma.

Kokonaiskohinan määrän aikaväliin asti voidaan ilmaista seuraavasti:

q(xtx0)=N(xt;αˉtx0,(1αˉt)I)q(x_t|x_0)= \mathcal{N}(x_t;\sqrt{\={\alpha}_t}x_0,(1-\={\alpha}_t)I)

Missä:

  • αˉt=s=1t(1βs)\=\alpha_t=\prod_{s=1}^t(1-\beta_s)

Käänteinen prosessi

Mallin tavoitteena on oppia tämän prosessin käänteinen suunta. Neuroverkko, jonka parametreina on θ\theta, ennustaa denoisoidun jakauman keskiarvon ja varianssin:

pθ(xt1xt)=N(xt1;μθ(xt,t),Σθ(xt,t))p_\theta(x_{t-1}|x_t) = \mathcal{N}(x_{t-1};\mu_\theta(x_t,t), \Sigma_\theta(x_t,t))

missä:

  • xtx_t: kohinainen kuva ajanhetkellä tt;
  • xt1x_{t-1}: ennustettu vähemmän kohinainen kuva ajanhetkellä t1t-1;
  • μθ\mu_\theta: neuroverkon ennustama keskiarvo;
  • Σθ\Sigma_\theta: neuroverkon ennustama varianssi.

Tappiofunktio

Koulutus perustuu todellisen kohinan ja mallin ennustaman kohinan välisen eron minimointiin seuraavan tavoitteen avulla:

Lsimple=Ex0,ϵ,t[ϵϵ0(αˉtx0+1αˉtϵ,t)2]L_{simple} = \mathbb{E}_{x_0, \epsilon, t} \left[ ||\epsilon - \epsilon_0 \left( \sqrt{\=\alpha_t}x_0 + \sqrt{1-\=\alpha_t}\epsilon, t \right)||^2 \right]

missä:

  • xtx_t: alkuperäinen syötekuva;
  • ϵ\epsilon: satunnainen Gaussin kohina;
  • tt: diffuusion aikaleima;
  • ϵθ\epsilon_\theta: neuroverkon kohinaennuste;
  • αˉt\={\alpha}_t: kohinasuunnitelman parametrien tulo vaiheeseen tt asti.

Tämä auttaa mallia parantamaan denoisointikykyään ja tuottamaan realistisempaa dataa.

Score-pohjainen generatiivinen mallinnus

Score-pohjaiset mallit ovat toinen diffuusiomallien luokka. Sen sijaan, että ne oppisivat suoraan käänteisen kohinaprosessin, ne oppivat score-funktion:

xlogp(x)\nabla_x\log{p(x)}

missä:

  • xlogp(x)\nabla_x\log{p(x)}: logaritmisen todennäköisyystiheyden gradientti syötteen xx suhteen. Tämä osoittaa siihen suuntaan, jossa datan jakauman todennäköisyys kasvaa;
  • p(x)p(x): datan todennäköisyysjakauma.

Tämä funktio kertoo mallille, mihin suuntaan kuvaa tulisi muuttaa, jotta se muistuttaisi enemmän oikeaa dataa. Näissä malleissa käytetään sitten näytteenottomenetelmää, kuten Langevinin dynamiikkaa, jolla kohinaista dataa siirretään asteittain kohti korkean todennäköisyyden datan alueita.

Score-pohjaiset mallit toimivat usein jatkuvassa ajassa käyttäen stokastisia differentiaaliyhtälöitä (SDE). Tämä jatkuva lähestymistapa tarjoaa joustavuutta ja mahdollistaa korkealaatuisen generoinnin erilaisille datatyypeille.

Sovellukset korkean resoluution kuvageneroinnissa

Diffuusiomallit ovat mullistaneet generatiiviset tehtävät, erityisesti korkean resoluution visuaalisessa generoinnissa. Merkittäviä sovelluksia ovat:

  • Stable Diffusion: latenttidiffuusiomalli, joka tuottaa kuvia tekstisyötteistä. Malli yhdistää U-Net-pohjaisen kohinanpoistomallin ja variaatioautokooderin (VAE) toimiakseen latentissa tilassa;
  • DALL·E 2: yhdistää CLIP-upotukset ja diffuusiopohjaisen dekoodauksen tuottaakseen erittäin realistisia ja semanttisia kuvia tekstistä;
  • MidJourney: Diffuusiopohjainen kuvagenerointialusta, joka tunnetaan korkealaatuisten, taiteellisesti tyyliteltyjen visuaalien tuottamisesta abstrakteista tai luovista syötteistä.

Näitä malleja käytetään taiteen generoinnissa, fotorealistisessa synteesissä, inpaintingissa, super-resoluutiossa ja muissa sovelluksissa.

Yhteenveto

Diffuusiomallit määrittelevät uuden aikakauden generatiivisessa mallinnuksessa käsittelemällä datan generointia käänteisenä stokastisena prosessina. DDPM- ja score-pohjaisten mallien avulla saavutetaan vankka oppiminen, korkea näyteiden laatu ja vaikuttavat tulokset eri modaliteeteissa. Niiden pohjautuminen todennäköisyys- ja termodynamiikan periaatteisiin tekee niistä sekä matemaattisesti elegantteja että käytännössä tehokkaita.

1. Mikä on diffuusiopohjaisten generatiivisten mallien perusidea?

2. Mitä DDPM:n etenevä prosessi käyttää kohinan lisäämiseen jokaisessa vaiheessa?

3. Mikä seuraavista kuvaa parhaiten score-funktion xlogp(x)\nabla_x\log{p(x)} roolia score-pohjaisessa generatiivisessa mallinnuksessa?

question mark

Mikä on diffuusiopohjaisten generatiivisten mallien perusidea?

Select the correct answer

question mark

Mitä DDPM:n etenevä prosessi käyttää kohinan lisäämiseen jokaisessa vaiheessa?

Select the correct answer

question mark

Mikä seuraavista kuvaa parhaiten score-funktion xlogp(x)\nabla_x\log{p(x)} roolia score-pohjaisessa generatiivisessa mallinnuksessa?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 2. Luku 9
some-alt