Diffusionsmodeller og Probabilistiske Generative Tilgange

Forståelse af diffusionsbaseret generering

Diffusionsmodeller er en kraftfuld type AI-model, der genererer data – især billeder – ved at lære at vende en proces, hvor der tilføjes tilfældig støj. Forestil dig at se et klart billede gradvist blive sløret, som statisk støj på et fjernsyn. En diffusionsmodel lærer at gøre det modsatte: den tager støjfyldte billeder og rekonstruerer det oprindelige billede ved trinvis at fjerne støjen.

Processen involverer to hovedfaser:

Fremadrettet proces (diffusion): tilfældig støj tilføjes gradvist til et billede over mange trin, hvilket korrumperer det til ren støj;
Omvendt proces (denoising): et neuralt netværk lærer at fjerne støjen trin for trin og rekonstruerer det oprindelige billede fra den støjfyldte version.

Diffusionsmodeller er kendt for deres evne til at producere billeder af høj kvalitet og realisme. Deres træning er typisk mere stabil sammenlignet med modeller som GANs, hvilket gør dem meget attraktive i moderne generativ AI.

Denoising Diffusion Probabilistic Models (DDPMs)

Denoising diffusion probabilistiske modeller (DDPMs) er en populær type diffusionsmodel, der anvender probabilistiske principper og dyb læring til trinvis at fjerne støj fra billeder.

Fremadrettet proces

I den fremadrettede proces starter vi med et rigtigt billede $x_0$ og tilføjer gradvist Gaussisk støj over $T$ tidsskridt:

q(x_t|x_{t-1})= \mathcal{N}(x_t;\sqrt{1-\beta_t}x_{t-1},\beta_tI)

Hvor:

$x_t$ : støjfyldt version af input ved tidsskridt;
$\beta_t$ : lille variansplan, der styrer, hvor meget støj der tilføjes;
$\mathcal{N}$ : Gaussisk fordeling.

Vi kan også udtrykke den samlede støj tilføjet op til trin som:

q(x_t|x_0)= \mathcal{N}(x_t;\sqrt{\={\alpha}_t}x_0,(1-\={\alpha}_t)I)

Hvor:

$\=\alpha_t=\prod_{s=1}^t(1-\beta_s)$

Omvendt proces

Målet med modellen er at lære den omvendte proces. Et neuralt netværk parameteriseret af $\theta$ forudsiger middelværdi og varians for den afstøjede fordeling:

p_\theta(x_{t-1}|x_t) = \mathcal{N}(x_{t-1};\mu_\theta(x_t,t), \Sigma_\theta(x_t,t))

hvor:

$x_t$ : støjfyldt billede ved tidssteg $t$ ;
$x_{t-1}$ : forudsagt mindre støjfyldt billede ved steg $t-1$ ;
$\mu_\theta$ : forudsagt middelværdi fra det neurale netværk;
$\Sigma_\theta$ : forudsagt varians fra det neurale netværk.

Tabsfunktion

Træning indebærer at minimere forskellen mellem den faktiske støj og modellens forudsagte støj ved hjælp af følgende objektiv:

L_{simple} = \mathbb{E}_{x_0, \epsilon, t} \left[ ||\epsilon - \epsilon_0 \left( \sqrt{\=\alpha_t}x_0 + \sqrt{1-\=\alpha_t}\epsilon, t \right)||^2 \right]

hvor:

$x_t$ : oprindeligt inputbillede;
$\epsilon$ : tilfældig Gaussisk støj;
$t$ : tidssteg under diffusion;
$\epsilon_\theta$ : neuralt netværks forudsigelse af støj;
$\={\alpha}_t$ : Produkt af støjskemaets parametre op til steg $t$ .

Dette hjælper modellen med at blive bedre til at fjerne støj, hvilket forbedrer dens evne til at generere realistiske data.

Score-baseret generativ modellering

Score-baserede modeller er en anden klasse af diffusionsmodeller. I stedet for at lære den omvendte støjproces direkte, lærer de scorefunktionen:

\nabla_x\log{p(x)}

hvor:

$\nabla_x\log{p(x)}$ : gradienten af log-sandsynlighedstætheden med hensyn til input $x$ . Denne peger i retning af stigende sandsynlighed under datadistributionen;
$p(x)$ : sandsynlighedsfordelingen for dataene.

Denne funktion angiver for modellen, i hvilken retning billedet skal bevæge sig for at blive mere som rigtige data. Disse modeller anvender derefter en samplingmetode som Langevin-dynamik til gradvist at flytte støjfyldte data mod områder med høj sandsynlighed.

Score-baserede modeller arbejder ofte i kontinuerlig tid ved brug af stokastiske differentialligninger (SDE'er). Denne kontinuerlige tilgang giver fleksibilitet og kan producere høj kvalitet af genererede data på tværs af forskellige datatyper.

Anvendelser inden for højopløselig billedgenerering

Diffusionsmodeller har revolutioneret generative opgaver, især inden for højopløselig visuel generering. Bemærkelsesværdige anvendelser omfatter:

Stable Diffusion: en latent diffusionsmodel, der genererer billeder ud fra tekstprompter. Den kombinerer en U-Net-baseret denoising-model med en variational autoencoder (VAE) for at operere i latent rum;
DALL·E 2: kombinerer CLIP-embeddings og diffusionsbaseret dekodning for at generere meget realistiske og semantiske billeder ud fra tekst;
MidJourney: En diffusionsbaseret billedgenereringsplatform kendt for at producere visuelt høj kvalitet og kunstnerisk stilede billeder ud fra abstrakte eller kreative prompts.

Disse modeller anvendes til kunstgenerering, fotorealistisk syntese, inpainting, superopløsning og mere.

Sammenfatning

Diffusionsmodeller definerer en ny æra inden for generativ modellering ved at behandle datagenerering som en omvendt stokastisk proces over tid. Gennem DDPM'er og score-baserede modeller opnår de robust træning, høj prøve-kvalitet og overbevisende resultater på tværs af forskellige modaliteter. Deres forankring i sandsynligheds- og termodynamiske principper gør dem både matematisk elegante og praktisk kraftfulde.

1. Hvad er hovedideen bag diffusionsbaserede generative modeller?

2. Hvad bruger DDPM's fremadrettede proces til at tilføje støj ved hvert trin?

3. Hvilken af følgende beskriver bedst scorefunktionens $\nabla_x\log{p(x)}$ rolle i score-baseret generativ modellering?

Hvad er hovedideen bag diffusionsbaserede generative modeller?

Select the correct answer

Rekonstruktion af data ved at vende en gradvis støjtilføjelsesproces.

Komprimering af data ved hjælp af autoencodere

Generering af data ved at tilføje støj til ren tilfældighed

Sampling direkte fra en latent fordeling

Hvad bruger DDPM's fremadrettede proces til at tilføje støj ved hvert trin?

Select the correct answer

Uniform fordeling

Gaussisk fordeling med fast varians

Gaussisk fordeling med en tidsplanlagt varians $\beta_t$

Bernoulli fordeling med lærbar sandsynlighed

Hvilken af følgende beskriver bedst scorefunktionens $\nabla_x\log{p(x)}$ rolle i score-baseret generativ modellering?

Select the correct answer

Den estimerer middelværdien af fordelingen.

Den definerer mængden af støj tilføjet under træning.

Den komprimerer data til latente variable.

Den styrer data mod høj-sandsynlighedsregioner under prøveudtagning.

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 2. Kapitel 9

Spørg AI

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Awesome!

Completion rate improved to 4.76

Diffusionsmodeller og Probabilistiske Generative Tilgange

Stryg for at vise menuen

Forståelse af diffusionsbaseret generering

Processen involverer to hovedfaser:

Fremadrettet proces (diffusion): tilfældig støj tilføjes gradvist til et billede over mange trin, hvilket korrumperer det til ren støj;
Omvendt proces (denoising): et neuralt netværk lærer at fjerne støjen trin for trin og rekonstruerer det oprindelige billede fra den støjfyldte version.

Denoising Diffusion Probabilistic Models (DDPMs)

Denoising diffusion probabilistiske modeller (DDPMs) er en populær type diffusionsmodel, der anvender probabilistiske principper og dyb læring til trinvis at fjerne støj fra billeder.

Fremadrettet proces

I den fremadrettede proces starter vi med et rigtigt billede $x_0$ og tilføjer gradvist Gaussisk støj over $T$ tidsskridt:

q(x_t|x_{t-1})= \mathcal{N}(x_t;\sqrt{1-\beta_t}x_{t-1},\beta_tI)

Hvor:

$x_t$ : støjfyldt version af input ved tidsskridt;
$\beta_t$ : lille variansplan, der styrer, hvor meget støj der tilføjes;
$\mathcal{N}$ : Gaussisk fordeling.

Vi kan også udtrykke den samlede støj tilføjet op til trin som:

q(x_t|x_0)= \mathcal{N}(x_t;\sqrt{\={\alpha}_t}x_0,(1-\={\alpha}_t)I)

Hvor:

$\=\alpha_t=\prod_{s=1}^t(1-\beta_s)$

Omvendt proces

Målet med modellen er at lære den omvendte proces. Et neuralt netværk parameteriseret af $\theta$ forudsiger middelværdi og varians for den afstøjede fordeling:

p_\theta(x_{t-1}|x_t) = \mathcal{N}(x_{t-1};\mu_\theta(x_t,t), \Sigma_\theta(x_t,t))

hvor:

$x_t$ : støjfyldt billede ved tidssteg $t$ ;
$x_{t-1}$ : forudsagt mindre støjfyldt billede ved steg $t-1$ ;
$\mu_\theta$ : forudsagt middelværdi fra det neurale netværk;
$\Sigma_\theta$ : forudsagt varians fra det neurale netværk.

Tabsfunktion

Træning indebærer at minimere forskellen mellem den faktiske støj og modellens forudsagte støj ved hjælp af følgende objektiv:

L_{simple} = \mathbb{E}_{x_0, \epsilon, t} \left[ ||\epsilon - \epsilon_0 \left( \sqrt{\=\alpha_t}x_0 + \sqrt{1-\=\alpha_t}\epsilon, t \right)||^2 \right]

hvor:

$x_t$ : oprindeligt inputbillede;
$\epsilon$ : tilfældig Gaussisk støj;
$t$ : tidssteg under diffusion;
$\epsilon_\theta$ : neuralt netværks forudsigelse af støj;
$\={\alpha}_t$ : Produkt af støjskemaets parametre op til steg $t$ .

Dette hjælper modellen med at blive bedre til at fjerne støj, hvilket forbedrer dens evne til at generere realistiske data.

Score-baseret generativ modellering

Score-baserede modeller er en anden klasse af diffusionsmodeller. I stedet for at lære den omvendte støjproces direkte, lærer de scorefunktionen:

\nabla_x\log{p(x)}

hvor:

$\nabla_x\log{p(x)}$ : gradienten af log-sandsynlighedstætheden med hensyn til input $x$ . Denne peger i retning af stigende sandsynlighed under datadistributionen;
$p(x)$ : sandsynlighedsfordelingen for dataene.

Anvendelser inden for højopløselig billedgenerering

Diffusionsmodeller har revolutioneret generative opgaver, især inden for højopløselig visuel generering. Bemærkelsesværdige anvendelser omfatter:

Stable Diffusion: en latent diffusionsmodel, der genererer billeder ud fra tekstprompter. Den kombinerer en U-Net-baseret denoising-model med en variational autoencoder (VAE) for at operere i latent rum;
DALL·E 2: kombinerer CLIP-embeddings og diffusionsbaseret dekodning for at generere meget realistiske og semantiske billeder ud fra tekst;
MidJourney: En diffusionsbaseret billedgenereringsplatform kendt for at producere visuelt høj kvalitet og kunstnerisk stilede billeder ud fra abstrakte eller kreative prompts.

Disse modeller anvendes til kunstgenerering, fotorealistisk syntese, inpainting, superopløsning og mere.

Sammenfatning

1. Hvad er hovedideen bag diffusionsbaserede generative modeller?

2. Hvad bruger DDPM's fremadrettede proces til at tilføje støj ved hvert trin?

3. Hvilken af følgende beskriver bedst scorefunktionens $\nabla_x\log{p(x)}$ rolle i score-baseret generativ modellering?

Hvad er hovedideen bag diffusionsbaserede generative modeller?

Select the correct answer

Rekonstruktion af data ved at vende en gradvis støjtilføjelsesproces.

Komprimering af data ved hjælp af autoencodere

Generering af data ved at tilføje støj til ren tilfældighed

Sampling direkte fra en latent fordeling

Hvad bruger DDPM's fremadrettede proces til at tilføje støj ved hvert trin?

Select the correct answer

Uniform fordeling

Gaussisk fordeling med fast varians

Gaussisk fordeling med en tidsplanlagt varians $\beta_t$

Bernoulli fordeling med lærbar sandsynlighed

Hvilken af følgende beskriver bedst scorefunktionens $\nabla_x\log{p(x)}$ rolle i score-baseret generativ modellering?

Select the correct answer

Den estimerer middelværdien af fordelingen.

Den definerer mængden af støj tilføjet under træning.

Den komprimerer data til latente variable.

Den styrer data mod høj-sandsynlighedsregioner under prøveudtagning.

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 2. Kapitel 9

Diffusionsmodeller og Probabilistiske Generative Tilgange

Forståelse af diffusionsbaseret generering

Denoising Diffusion Probabilistic Models (DDPMs)

Fremadrettet proces

Omvendt proces

Tabsfunktion

Score-baseret generativ modellering

Anvendelser inden for højopløselig billedgenerering

Sammenfatning

1. Hvad er hovedideen bag diffusionsbaserede generative modeller?

2. Hvad bruger DDPM's fremadrettede proces til at tilføje støj ved hvert trin?

3. Hvilken af følgende beskriver bedst scorefunktionens ∇xlog⁡p(x)\nabla_x\log{p(x)}∇x​logp(x) rolle i score-baseret generativ modellering?

Awesome!

Diffusionsmodeller og Probabilistiske Generative Tilgange

Forståelse af diffusionsbaseret generering

Denoising Diffusion Probabilistic Models (DDPMs)

Fremadrettet proces

Omvendt proces

Tabsfunktion

Score-baseret generativ modellering

Anvendelser inden for højopløselig billedgenerering

Sammenfatning

1. Hvad er hovedideen bag diffusionsbaserede generative modeller?

2. Hvad bruger DDPM's fremadrettede proces til at tilføje støj ved hvert trin?

3. Hvilken af følgende beskriver bedst scorefunktionens ∇xlog⁡p(x)\nabla_x\log{p(x)}∇x​logp(x) rolle i score-baseret generativ modellering?

3. Hvilken af følgende beskriver bedst scorefunktionens $\nabla_x\log{p(x)}$ rolle i score-baseret generativ modellering?

3. Hvilken af følgende beskriver bedst scorefunktionens $\nabla_x\log{p(x)}$ rolle i score-baseret generativ modellering?