Diffusjonsmodeller og Probabilistiske Generative Tilnærminger

Forståelse av diffusjonsbasert generering

Diffusjonsmodeller er en kraftig type AI-modell som genererer data – spesielt bilder – ved å lære hvordan man reverserer en prosess med å legge til tilfeldig støy. Tenk deg å se et klart bilde gradvis bli uklart, som statisk på en TV. En diffusjonsmodell lærer å gjøre det motsatte: den tar støyende bilder og rekonstruerer det opprinnelige bildet ved å fjerne støy trinn for trinn.

Prosessen involverer to hovedfaser:

Fremoverprosess (diffusjon): legger gradvis til tilfeldig støy på et bilde over mange trinn, og ødelegger det til ren støy;
Omvendt prosess (avstøying): et nevralt nettverk lærer å fjerne støyen trinn for trinn, og rekonstruerer det opprinnelige bildet fra den støyende versjonen.

Diffusjonsmodeller er kjent for sin evne til å produsere bilder av høy kvalitet og realisme. Treningsprosessen er vanligvis mer stabil sammenlignet med modeller som GANs, noe som gjør dem svært attraktive innen moderne generativ AI.

Denoising Diffusion Probabilistic Models (DDPMs)

Denoising diffusion probabilistic models (DDPMs) er en populær type diffusjonsmodell som benytter probabilistiske prinsipper og dyp læring for å fjerne støy fra bilder på en trinnvis måte.

Fremoverprosess

I fremoverprosessen starter vi med et ekte bilde $x_0$ og legger gradvis til Gaussisk støy over $T$ tidsskritt:

q(x_t|x_{t-1})= \mathcal{N}(x_t;\sqrt{1-\beta_t}x_{t-1},\beta_tI)

Hvor:

$x_t$ : støyet versjon av input ved tidsskritt;
$\beta_t$ : liten variansplan som styrer hvor mye støy som legges til;
$\mathcal{N}$ : Gaussisk fordeling.

Den totale støyen som er lagt til frem til steg kan også uttrykkes som:

q(x_t|x_0)= \mathcal{N}(x_t;\sqrt{\={\alpha}_t}x_0,(1-\={\alpha}_t)I)

Hvor:

$\=\alpha_t=\prod_{s=1}^t(1-\beta_s)$

Omvendt prosess

Målet med modellen er å lære den omvendte prosessen. Et nevralt nettverk parameterisert av $\theta$ predikerer gjennomsnitt og varians for den avstøyede fordelingen:

p_\theta(x_{t-1}|x_t) = \mathcal{N}(x_{t-1};\mu_\theta(x_t,t), \Sigma_\theta(x_t,t))

hvor:

$x_t$ : støybilde ved tidsskritt $t$ ;
$x_{t-1}$ : predikert mindre støybilde ved steg $t-1$ ;
$\mu_\theta$ : predikert gjennomsnitt fra det nevrale nettverket;
$\Sigma_\theta$ : predikert varians fra det nevrale nettverket.

Tapfunksjon

Opplæring innebærer å minimere forskjellen mellom faktisk støy og modellens predikerte støy ved å bruke følgende mål:

L_{simple} = \mathbb{E}_{x_0, \epsilon, t} \left[ ||\epsilon - \epsilon_0 \left( \sqrt{\=\alpha_t}x_0 + \sqrt{1-\=\alpha_t}\epsilon, t \right)||^2 \right]

hvor:

$x_t$ : opprinnelig inngangsbilde;
$\epsilon$ : tilfeldig Gaussisk støy;
$t$ : tidsskritt under diffusjon;
$\epsilon_\theta$ : nevralt nettverks prediksjon av støy;
$\={\alpha}_t$ : Produkt av støyplanens parametere opp til steg $t$ .

Dette hjelper modellen å bli bedre til å fjerne støy, og forbedrer dens evne til å generere realistiske data.

Score-basert generativ modellering

Score-baserte modeller er en annen klasse av diffusjonsmodeller. I stedet for å lære den omvendte støyprosessen direkte, lærer de score-funksjonen:

\nabla_x\log{p(x)}

hvor:

$\nabla_x\log{p(x)}$ : gradienten til log-sannsynlighetstettheten med hensyn til inngangen $x$ . Denne peker i retning av økende sannsynlighet under datadistribusjonen;
$p(x)$ : sannsynlighetsfordelingen til dataene.

Denne funksjonen forteller modellen i hvilken retning bildet bør bevege seg for å bli mer lik ekte data. Disse modellene bruker deretter en samplingsmetode som Langevin-dynamikk for gradvis å flytte støyete data mot områder med høy sannsynlighet for data.

Score-baserte modeller arbeider ofte i kontinuerlig tid ved bruk av stokastiske differensialligninger (SDEer). Denne kontinuerlige tilnærmingen gir fleksibilitet og kan produsere høykvalitetsgenereringer på tvers av ulike datatyper.

Bruksområder innen høyoppløselig bildegenerering

Diffusjonsmodeller har revolusjonert generative oppgaver, spesielt innen høyoppløselig visuell generering. Fremtredende bruksområder inkluderer:

Stable Diffusion: en latent diffusjonsmodell som genererer bilder fra tekstbeskrivelser. Den kombinerer en U-Net-basert denoiseringsmodell med en varians-autokoder (VAE) for å operere i latent rom;
DALL·E 2: kombinerer CLIP-innbeddinger og diffusjonsbasert dekoding for å generere svært realistiske og semantiske bilder fra tekst;
MidJourney: En diffusjonsbasert bildegenereringsplattform kjent for å produsere høykvalitets, kunstnerisk stiliserte bilder fra abstrakte eller kreative beskrivelser.

Disse modellene brukes til kunstgenerering, fotorealistisk syntese, inpainting, superoppløsning og mer.

Sammendrag

Diffusjonsmodeller markerer en ny æra innen generativ modellering ved å behandle datagenerering som en stokastisk prosess i reversert tid. Gjennom DDPM-er og score-baserte modeller oppnår de robust trening, høy prøve-kvalitet og overbevisende resultater på tvers av ulike modaliteter. Deres forankring i sannsynlighets- og termodynamiske prinsipper gjør dem både matematisk elegante og praktisk kraftfulle.

1. Hva er hovedideen bak diffusjonsbaserte generative modeller?

2. Hva bruker DDPMs fremoverprosess for å legge til støy ved hvert steg?

3. Hvilket av følgende beskriver best rollen til score-funksjonen $\nabla_x\log{p(x)}$ i score-basert generativ modellering?

Hva er hovedideen bak diffusjonsbaserte generative modeller?

Select the correct answer

Rekonstruere data ved å reversere en gradvis støyprosess.

Kompresjon av data ved bruk av autokodere

Generere data ved å legge til støy til ren tilfeldighet

Prøvetaking direkte fra en latent fordeling

Hva bruker DDPMs fremoverprosess for å legge til støy ved hvert steg?

Select the correct answer

Uniform fordeling

Gaussisk fordeling med fast varians

Gaussisk fordeling med tidsplanlagt varians $\beta_t$

Bernoulli-fordeling med lærbar sannsynlighet

Hvilket av følgende beskriver best rollen til score-funksjonen $\nabla_x\log{p(x)}$ i score-basert generativ modellering?

Select the correct answer

Den estimerer gjennomsnittet av fordelingen.

Den definerer mengden støy som tilføres under trening.

Den komprimerer data til latente variabler.

Den styrer data mot høy-sannsynlighetsområder under sampling.

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 2. Kapittel 9

Spør AI

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Suggested prompts:

Can you explain the difference between DDPMs and score-based models?

How does the reverse process actually reconstruct the original image?

What are some challenges or limitations of diffusion models?

Awesome!

Completion rate improved to 4.76

Diffusjonsmodeller og Probabilistiske Generative Tilnærminger

Sveip for å vise menyen

Forståelse av diffusjonsbasert generering

Prosessen involverer to hovedfaser:

Fremoverprosess (diffusjon): legger gradvis til tilfeldig støy på et bilde over mange trinn, og ødelegger det til ren støy;
Omvendt prosess (avstøying): et nevralt nettverk lærer å fjerne støyen trinn for trinn, og rekonstruerer det opprinnelige bildet fra den støyende versjonen.

Denoising Diffusion Probabilistic Models (DDPMs)

Denoising diffusion probabilistic models (DDPMs) er en populær type diffusjonsmodell som benytter probabilistiske prinsipper og dyp læring for å fjerne støy fra bilder på en trinnvis måte.

Fremoverprosess

I fremoverprosessen starter vi med et ekte bilde $x_0$ og legger gradvis til Gaussisk støy over $T$ tidsskritt:

q(x_t|x_{t-1})= \mathcal{N}(x_t;\sqrt{1-\beta_t}x_{t-1},\beta_tI)

Hvor:

$x_t$ : støyet versjon av input ved tidsskritt;
$\beta_t$ : liten variansplan som styrer hvor mye støy som legges til;
$\mathcal{N}$ : Gaussisk fordeling.

Den totale støyen som er lagt til frem til steg kan også uttrykkes som:

q(x_t|x_0)= \mathcal{N}(x_t;\sqrt{\={\alpha}_t}x_0,(1-\={\alpha}_t)I)

Hvor:

$\=\alpha_t=\prod_{s=1}^t(1-\beta_s)$

Omvendt prosess

Målet med modellen er å lære den omvendte prosessen. Et nevralt nettverk parameterisert av $\theta$ predikerer gjennomsnitt og varians for den avstøyede fordelingen:

p_\theta(x_{t-1}|x_t) = \mathcal{N}(x_{t-1};\mu_\theta(x_t,t), \Sigma_\theta(x_t,t))

hvor:

$x_t$ : støybilde ved tidsskritt $t$ ;
$x_{t-1}$ : predikert mindre støybilde ved steg $t-1$ ;
$\mu_\theta$ : predikert gjennomsnitt fra det nevrale nettverket;
$\Sigma_\theta$ : predikert varians fra det nevrale nettverket.

Tapfunksjon

Opplæring innebærer å minimere forskjellen mellom faktisk støy og modellens predikerte støy ved å bruke følgende mål:

L_{simple} = \mathbb{E}_{x_0, \epsilon, t} \left[ ||\epsilon - \epsilon_0 \left( \sqrt{\=\alpha_t}x_0 + \sqrt{1-\=\alpha_t}\epsilon, t \right)||^2 \right]

hvor:

$x_t$ : opprinnelig inngangsbilde;
$\epsilon$ : tilfeldig Gaussisk støy;
$t$ : tidsskritt under diffusjon;
$\epsilon_\theta$ : nevralt nettverks prediksjon av støy;
$\={\alpha}_t$ : Produkt av støyplanens parametere opp til steg $t$ .

Dette hjelper modellen å bli bedre til å fjerne støy, og forbedrer dens evne til å generere realistiske data.

Score-basert generativ modellering

Score-baserte modeller er en annen klasse av diffusjonsmodeller. I stedet for å lære den omvendte støyprosessen direkte, lærer de score-funksjonen:

\nabla_x\log{p(x)}

hvor:

$\nabla_x\log{p(x)}$ : gradienten til log-sannsynlighetstettheten med hensyn til inngangen $x$ . Denne peker i retning av økende sannsynlighet under datadistribusjonen;
$p(x)$ : sannsynlighetsfordelingen til dataene.

Bruksområder innen høyoppløselig bildegenerering

Diffusjonsmodeller har revolusjonert generative oppgaver, spesielt innen høyoppløselig visuell generering. Fremtredende bruksområder inkluderer:

Stable Diffusion: en latent diffusjonsmodell som genererer bilder fra tekstbeskrivelser. Den kombinerer en U-Net-basert denoiseringsmodell med en varians-autokoder (VAE) for å operere i latent rom;
DALL·E 2: kombinerer CLIP-innbeddinger og diffusjonsbasert dekoding for å generere svært realistiske og semantiske bilder fra tekst;
MidJourney: En diffusjonsbasert bildegenereringsplattform kjent for å produsere høykvalitets, kunstnerisk stiliserte bilder fra abstrakte eller kreative beskrivelser.

Disse modellene brukes til kunstgenerering, fotorealistisk syntese, inpainting, superoppløsning og mer.

Sammendrag

1. Hva er hovedideen bak diffusjonsbaserte generative modeller?

2. Hva bruker DDPMs fremoverprosess for å legge til støy ved hvert steg?

3. Hvilket av følgende beskriver best rollen til score-funksjonen $\nabla_x\log{p(x)}$ i score-basert generativ modellering?

Hva er hovedideen bak diffusjonsbaserte generative modeller?

Select the correct answer

Rekonstruere data ved å reversere en gradvis støyprosess.

Kompresjon av data ved bruk av autokodere

Generere data ved å legge til støy til ren tilfeldighet

Prøvetaking direkte fra en latent fordeling

Hva bruker DDPMs fremoverprosess for å legge til støy ved hvert steg?

Select the correct answer

Uniform fordeling

Gaussisk fordeling med fast varians

Gaussisk fordeling med tidsplanlagt varians $\beta_t$

Bernoulli-fordeling med lærbar sannsynlighet

Hvilket av følgende beskriver best rollen til score-funksjonen $\nabla_x\log{p(x)}$ i score-basert generativ modellering?

Select the correct answer

Den estimerer gjennomsnittet av fordelingen.

Den definerer mengden støy som tilføres under trening.

Den komprimerer data til latente variabler.

Den styrer data mot høy-sannsynlighetsområder under sampling.

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 2. Kapittel 9

Diffusjonsmodeller og Probabilistiske Generative Tilnærminger

Forståelse av diffusjonsbasert generering

Denoising Diffusion Probabilistic Models (DDPMs)

Fremoverprosess

Omvendt prosess

Tapfunksjon

Score-basert generativ modellering

Bruksområder innen høyoppløselig bildegenerering

Sammendrag

1. Hva er hovedideen bak diffusjonsbaserte generative modeller?

2. Hva bruker DDPMs fremoverprosess for å legge til støy ved hvert steg?

3. Hvilket av følgende beskriver best rollen til score-funksjonen ∇xlog⁡p(x)\nabla_x\log{p(x)}∇x​logp(x) i score-basert generativ modellering?

Awesome!

Diffusjonsmodeller og Probabilistiske Generative Tilnærminger

Forståelse av diffusjonsbasert generering

Denoising Diffusion Probabilistic Models (DDPMs)

Fremoverprosess

Omvendt prosess

Tapfunksjon

Score-basert generativ modellering

Bruksområder innen høyoppløselig bildegenerering

Sammendrag

1. Hva er hovedideen bak diffusjonsbaserte generative modeller?

2. Hva bruker DDPMs fremoverprosess for å legge til støy ved hvert steg?

3. Hvilket av følgende beskriver best rollen til score-funksjonen ∇xlog⁡p(x)\nabla_x\log{p(x)}∇x​logp(x) i score-basert generativ modellering?

3. Hvilket av følgende beskriver best rollen til score-funksjonen $\nabla_x\log{p(x)}$ i score-basert generativ modellering?

3. Hvilket av følgende beskriver best rollen til score-funksjonen $\nabla_x\log{p(x)}$ i score-basert generativ modellering?