Diffuusiomallit ja Todennäköisyyspohjaiset Generatiiviset Lähestymistavat
Pyyhkäise näyttääksesi valikon
Diffuusiopohjaisen generoinnin ymmärtäminen
Diffuusiomallit ovat tehokkaita tekoälymalleja, jotka tuottavat dataa – erityisesti kuvia – oppimalla, kuinka satunnaisen kohinan lisäämisprosessi voidaan kääntää. Kuvittele, että katsot puhdasta kuvaa, joka vähitellen muuttuu epäselväksi kuin television lumisade. Diffuusiomalli oppii tekemään päinvastoin: se ottaa kohinaisia kuvia ja rekonstruoi alkuperäisen kuvan poistamalla kohinaa vaihe vaiheelta.
Prosessi koostuu kahdesta päävaiheesta:
- Etenevä prosessi (diffuusio): lisää vähitellen satunnaista kohinaa kuvaan useiden vaiheiden aikana, kunnes se muuttuu pelkäksi kohinaksi;
- Käänteinen prosessi (kohinanpoisto): neuroverkko oppii poistamaan kohinaa vaiheittain, rekonstruoiden alkuperäisen kuvan kohinaisesta versiosta.
Diffuusiomallit tunnetaan kyvystään tuottaa korkealaatuisia ja realistisia kuvia. Niiden koulutus on tyypillisesti vakaampaa verrattuna esimerkiksi GAN-malleihin, mikä tekee niistä erittäin houkuttelevia nykyaikaisessa generatiivisessa tekoälyssä.
Kohinanpoistoon perustuvat diffuusioprobabilistiset mallit (DDPM)
Kohinanpoistoon perustuvat diffuusioprobabilistiset mallit (DDPM) ovat suosittu diffuusiomallityyppi, joka hyödyntää probabilistisia periaatteita ja syväoppimista poistaakseen kohinaa kuvista vaiheittain.
Eteenpäin suuntautuva prosessi
Eteenpäin suuntautuvassa prosessissa aloitetaan aidosta kuvasta x0 ja lisätään asteittain Gaussin kohinaa T aikavälin aikana:
q(xt∣xt−1)=N(xt;1−βtxt−1,βtI)Missä:
- xt: syötteen kohinainen versio aikavälillä;
- βt: pieni varianssiaikataulu, joka määrittää lisättävän kohinan määrän;
- N: Gaussin jakauma.
Kokonaiskohinan määrän tiettyyn askeleeseen asti voidaan ilmaista myös seuraavasti:
q(xt∣x0)=N(xt;αˉtx0,(1−αˉt)I)Missä:
- αˉt=∏s=1t(1−βs)
Käänteinen prosessi
Mallin tavoitteena on oppia tämän prosessin käänteinen suunta. Neuroverkko, jonka parametreina on θ, ennustaa denoisoidun jakauman keskiarvon ja varianssin:
pθ(xt−1∣xt)=N(xt−1;μθ(xt,t),Σθ(xt,t))missä:
- xt: kohinainen kuva ajanhetkellä t;
- xt−1: ennustettu vähemmän kohinainen kuva hetkellä t−1;
- μθ: neuroverkon ennustama keskiarvo;
- Σθ: neuroverkon ennustama varianssi.
Häviöfunktio
Koulutus perustuu todellisen kohinan ja mallin ennustaman kohinan välisen eron minimointiin seuraavalla tavoitteella:
Lsimple=Ex0,ϵ,t[∣∣ϵ−ϵ0(αˉtx0+1−αˉtϵ,t)∣∣2]missä:
- xt: alkuperäinen syötekuva;
- ϵ: satunnainen Gaussin kohina;
- t: diffuusion aikaleima;
- ϵθ: neuroverkon kohinaennuste;
- αˉt: Kohina-aikataulun parametrien tulo vaiheeseen t asti.
Tämä auttaa mallia parantamaan denoisauskykyään ja siten tuottamaan realistisempaa dataa.
Score-pohjainen generatiivinen mallinnus
Score-pohjaiset mallit ovat toinen diffuusiomallien luokka. Sen sijaan, että ne oppisivat suoraan käänteisen kohinaprosessin, ne oppivat score-funktion:
∇xlogp(x)missä:
- ∇xlogp(x): log-todennäköisyystiheyden gradientti syötteen x suhteen. Tämä osoittaa suuntaan, jossa todennäköisyys datajakauman alla kasvaa;
- p(x): datan todennäköisyysjakauma.
Tämä funktio kertoo mallille, mihin suuntaan kuvaa tulisi muuttaa, jotta siitä tulisi aidomman datan kaltainen. Näissä malleissa käytetään sitten näytteenottomenetelmää, kuten Langevin-dynamiikkaa, jolla kohinaista dataa siirretään asteittain kohti korkean todennäköisyyden datan alueita.
Score-pohjaiset mallit toimivat usein jatkuvassa ajassa käyttäen stokastisia differentiaaliyhtälöitä (SDE). Tämä jatkuva lähestymistapa tarjoaa joustavuutta ja mahdollistaa korkealaatuisen generoinnin erilaisille datatyypeille.
Sovellukset korkean resoluution kuvageneroinnissa
Diffuusiomallit ovat mullistaneet generatiiviset tehtävät, erityisesti korkean resoluution visuaalisessa generoinnissa. Merkittäviä sovelluksia ovat:
- Stable Diffusion: latenttidiffuusiomalli, joka tuottaa kuvia tekstisyötteistä. Se yhdistää U-Net-pohjaisen kohinanpoistomallin ja varianssia pienentävän autoenkooderin (VAE) toimiakseen latentissa tilassa;
- DALL·E 2: yhdistää CLIP-upotukset ja diffuusiopohjaisen dekoodauksen tuottaakseen erittäin realistisia ja semanttisia kuvia tekstistä;
- MidJourney: Diffuusiopohjainen kuvagenerointialusta, joka tunnetaan korkealaatuisten, taiteellisesti tyyliteltyjen visuaalien tuottamisesta abstrakteista tai luovista syötteistä.
Näitä malleja käytetään taiteen generoinnissa, fotorealistisessa synteesissä, inpaintingissa, super-resoluutiossa ja muissa sovelluksissa.
Yhteenveto
Diffuusiomallit määrittelevät uuden aikakauden generatiivisessa mallinnuksessa käsittelemällä datan generointia käänteisenä stokastisena prosessina. DDPM-mallien ja score-pohjaisten mallien avulla saavutetaan vankka oppiminen, korkea näyteiden laatu ja vaikuttavat tulokset eri modaliteeteissa. Niiden pohjautuminen todennäköisyys- ja termodynamiikan periaatteisiin tekee niistä sekä matemaattisesti elegantteja että käytännössä tehokkaita.
1. Mikä on diffuusiopohjaisten generatiivisten mallien perusidea?
2. Mitä DDPM:n etuprosessi käyttää kohinan lisäämiseen jokaisessa vaiheessa?
3. Mikä seuraavista kuvaa parhaiten score-funktion ∇xlogp(x) roolia score-pohjaisessa generatiivisessa mallinnuksessa?
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme