Diffusionsmodeller och Sannolikhetsbaserade Generativa Metoder

Förståelse av diffusionsbaserad generering

Diffusionsmodeller är en kraftfull typ av AI-modell som genererar data – särskilt bilder – genom att lära sig att reversera en process där slumpmässigt brus adderas. Föreställ dig att du ser en klar bild gradvis bli suddig, likt brus på en TV. En diffusionsmodell lär sig att göra motsatsen: den tar brusiga bilder och rekonstruerar den ursprungliga bilden genom att stegvis ta bort bruset.

Processen involverar två huvudfaser:

Framåtriktad process (diffusion): adderar gradvis slumpmässigt brus till en bild under många steg, vilket korrumperar den till rent brus;
Omvänd process (avbrusning): ett neuralt nätverk lär sig att stegvis ta bort bruset och rekonstruera den ursprungliga bilden från den brusiga versionen.

Diffusionsmodeller är kända för sin förmåga att producera högkvalitativa, realistiska bilder. Deras träning är vanligtvis mer stabil jämfört med modeller som GANs, vilket gör dem mycket attraktiva inom modern generativ AI.

Avbrusnings-diffusionsprobabilistiska modeller (DDPMs)

Avbrusnings-diffusionsprobabilistiska modeller (DDPMs) är en populär typ av diffusionsmodell som tillämpar probabilistiska principer och djupinlärning för att stegvis ta bort brus från bilder.

Framåtriktad process

I den framåtriktade processen börjar vi med en verklig bild $x_0$ och lägger gradvis till Gaussiskt brus över $T$ tidssteg:

q(x_t|x_{t-1})= \mathcal{N}(x_t;\sqrt{1-\beta_t}x_{t-1},\beta_tI)

Där:

$x_t$ : brusad version av indata vid tidssteget;
$\beta_t$ : liten variansschema som styr hur mycket brus som läggs till;
$\mathcal{N}$ : Gaussisk fördelning.

Vi kan också uttrycka det totala bruset som lagts till fram till steg som:

q(x_t|x_0)= \mathcal{N}(x_t;\sqrt{\={\alpha}_t}x_0,(1-\={\alpha}_t)I)

Där:

$\=\alpha_t=\prod_{s=1}^t(1-\beta_s)$

Omvänd process

Målet med modellen är att lära sig omvändningen av denna process. Ett neuralt nätverk parameteriserat av $\theta$ förutspår medelvärde och varians för den avbrusade fördelningen:

p_\theta(x_{t-1}|x_t) = \mathcal{N}(x_{t-1};\mu_\theta(x_t,t), \Sigma_\theta(x_t,t))

Där:

$x_t$ : brusad bild vid tidpunkt $t$ ;
$x_{t-1}$ : förutsagd mindre brusad bild vid steg $t-1$ ;
$\mu_\theta$ : förutsagt medelvärde från det neurala nätverket;
$\Sigma_\theta$ : förutsagd varians från det neurala nätverket.

Förlustfunktion

Träningen innebär att minimera skillnaden mellan det faktiska bruset och modellens förutsagda brus med följande mål:

L_{simple} = \mathbb{E}_{x_0, \epsilon, t} \left[ ||\epsilon - \epsilon_0 \left( \sqrt{\=\alpha_t}x_0 + \sqrt{1-\=\alpha_t}\epsilon, t \right)||^2 \right]

Där:

$x_t$ : ursprunglig inmatningsbild;
$\epsilon$ : slumpmässigt Gaussiskt brus;
$t$ : tidssteg under diffusionen;
$\epsilon_\theta$ : neuralt nätverks förutsägelse av brus;
$\={\alpha}_t$ : Produkt av brusplanens parametrar upp till steg $t$ .

Detta hjälper modellen att bli bättre på att ta bort brus, vilket förbättrar dess förmåga att generera realistiska data.

Score-baserad generativ modellering

Score-baserade modeller är en annan klass av diffusionsmodeller. Istället för att direkt lära sig den omvända brusprocessen, lär de sig scorefunktionen:

\nabla_x\log{p(x)}

Där:

$\nabla_x\log{p(x)}$ : gradienten av log-sannolikhetstätheten med avseende på indata $x$ . Denna pekar i riktning mot ökad sannolikhet under datadistributionen;
$p(x)$ : sannolikhetsfördelningen för data.

Denna funktion anger för modellen i vilken riktning bilden bör förändras för att bli mer lik verkliga data. Dessa modeller använder sedan en samplingsmetod som Langevin-dynamik för att gradvis flytta brusiga data mot områden med hög sannolikhet.

Score-baserade modeller arbetar ofta i kontinuerlig tid med hjälp av stokastiska differentialekvationer (SDEs). Detta kontinuerliga tillvägagångssätt ger flexibilitet och kan producera högkvalitativa genereringar över olika datatyper.

Tillämpningar inom högupplöst bildgenerering

Diffusionsmodeller har revolutionerat generativa uppgifter, särskilt inom högupplöst visuell generering. Anmärkningsvärda tillämpningar inkluderar:

Stable Diffusion: en latent diffusionsmodell som genererar bilder från textprompter. Den kombinerar en U-Net-baserad avbrusningsmodell med en variational autoencoder (VAE) för att arbeta i latent utrymme;
DALL·E 2: kombinerar CLIP-embeddingar och diffusionsbaserad avkodning för att generera mycket realistiska och semantiska bilder från text;
MidJourney: en diffusionsbaserad plattform för bildgenerering känd för att producera högkvalitativa, konstnärligt stiliserade visuella bilder från abstrakta eller kreativa prompter.

Dessa modeller används inom konstgenerering, fotorealistisk syntes, inpainting, superupplösning och mer.

Sammanfattning

Diffusionsmodeller definierar en ny era av generativ modellering genom att behandla datagenerering som en stokastisk process i omvänd tid. Genom DDPM:er och score-baserade modeller uppnår de robust träning, hög provkvalitet och övertygande resultat över olika modaliteter. Deras förankring i sannolikhets- och termodynamiska principer gör dem både matematiskt eleganta och praktiskt kraftfulla.

1. Vad är huvudidén bakom diffusionsbaserade generativa modeller?

2. Vad använder DDPM:s framåtriktade process för att lägga till brus vid varje steg?

3. Vilket av följande beskriver bäst scorefunktionens $\nabla_x\log{p(x)}$ roll i score-baserad generativ modellering?

Vad är huvudidén bakom diffusionsbaserade generativa modeller?

Select the correct answer

Återskapa data genom att reversera en gradvis brusningsprocess.

Komprimera data med hjälp av autoencoders

Generera data genom att lägga till brus till ren slump

Sampla direkt från en latent fördelning

Vad använder DDPM:s framåtriktade process för att lägga till brus vid varje steg?

Select the correct answer

Uniform fördelning

Gaussisk fördelning med fast varians

Gaussisk fördelning med ett schemalagt variansvärde $\beta_t$

Bernoulli-fördelning med lärbar sannolikhet

Vilket av följande beskriver bäst scorefunktionens $\nabla_x\log{p(x)}$ roll i score-baserad generativ modellering?

Select the correct answer

Den uppskattar medelvärdet av fördelningen.

Den definierar mängden brus som läggs till under träning.

Den komprimerar data till latenta variabler.

Den styr data mot högsannolikhetsområden under sampling.

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 2. Kapitel 9

Fråga AI

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Awesome!

Completion rate improved to 4.76

Diffusionsmodeller och Sannolikhetsbaserade Generativa Metoder

Svep för att visa menyn

Förståelse av diffusionsbaserad generering

Processen involverar två huvudfaser:

Framåtriktad process (diffusion): adderar gradvis slumpmässigt brus till en bild under många steg, vilket korrumperar den till rent brus;
Omvänd process (avbrusning): ett neuralt nätverk lär sig att stegvis ta bort bruset och rekonstruera den ursprungliga bilden från den brusiga versionen.

Avbrusnings-diffusionsprobabilistiska modeller (DDPMs)

Avbrusnings-diffusionsprobabilistiska modeller (DDPMs) är en populär typ av diffusionsmodell som tillämpar probabilistiska principer och djupinlärning för att stegvis ta bort brus från bilder.

Framåtriktad process

I den framåtriktade processen börjar vi med en verklig bild $x_0$ och lägger gradvis till Gaussiskt brus över $T$ tidssteg:

q(x_t|x_{t-1})= \mathcal{N}(x_t;\sqrt{1-\beta_t}x_{t-1},\beta_tI)

Där:

$x_t$ : brusad version av indata vid tidssteget;
$\beta_t$ : liten variansschema som styr hur mycket brus som läggs till;
$\mathcal{N}$ : Gaussisk fördelning.

Vi kan också uttrycka det totala bruset som lagts till fram till steg som:

q(x_t|x_0)= \mathcal{N}(x_t;\sqrt{\={\alpha}_t}x_0,(1-\={\alpha}_t)I)

Där:

$\=\alpha_t=\prod_{s=1}^t(1-\beta_s)$

Omvänd process

Målet med modellen är att lära sig omvändningen av denna process. Ett neuralt nätverk parameteriserat av $\theta$ förutspår medelvärde och varians för den avbrusade fördelningen:

p_\theta(x_{t-1}|x_t) = \mathcal{N}(x_{t-1};\mu_\theta(x_t,t), \Sigma_\theta(x_t,t))

Där:

$x_t$ : brusad bild vid tidpunkt $t$ ;
$x_{t-1}$ : förutsagd mindre brusad bild vid steg $t-1$ ;
$\mu_\theta$ : förutsagt medelvärde från det neurala nätverket;
$\Sigma_\theta$ : förutsagd varians från det neurala nätverket.

Förlustfunktion

Träningen innebär att minimera skillnaden mellan det faktiska bruset och modellens förutsagda brus med följande mål:

L_{simple} = \mathbb{E}_{x_0, \epsilon, t} \left[ ||\epsilon - \epsilon_0 \left( \sqrt{\=\alpha_t}x_0 + \sqrt{1-\=\alpha_t}\epsilon, t \right)||^2 \right]

Där:

$x_t$ : ursprunglig inmatningsbild;
$\epsilon$ : slumpmässigt Gaussiskt brus;
$t$ : tidssteg under diffusionen;
$\epsilon_\theta$ : neuralt nätverks förutsägelse av brus;
$\={\alpha}_t$ : Produkt av brusplanens parametrar upp till steg $t$ .

Detta hjälper modellen att bli bättre på att ta bort brus, vilket förbättrar dess förmåga att generera realistiska data.

Score-baserad generativ modellering

Score-baserade modeller är en annan klass av diffusionsmodeller. Istället för att direkt lära sig den omvända brusprocessen, lär de sig scorefunktionen:

\nabla_x\log{p(x)}

Där:

$\nabla_x\log{p(x)}$ : gradienten av log-sannolikhetstätheten med avseende på indata $x$ . Denna pekar i riktning mot ökad sannolikhet under datadistributionen;
$p(x)$ : sannolikhetsfördelningen för data.

Tillämpningar inom högupplöst bildgenerering

Diffusionsmodeller har revolutionerat generativa uppgifter, särskilt inom högupplöst visuell generering. Anmärkningsvärda tillämpningar inkluderar:

Stable Diffusion: en latent diffusionsmodell som genererar bilder från textprompter. Den kombinerar en U-Net-baserad avbrusningsmodell med en variational autoencoder (VAE) för att arbeta i latent utrymme;
DALL·E 2: kombinerar CLIP-embeddingar och diffusionsbaserad avkodning för att generera mycket realistiska och semantiska bilder från text;
MidJourney: en diffusionsbaserad plattform för bildgenerering känd för att producera högkvalitativa, konstnärligt stiliserade visuella bilder från abstrakta eller kreativa prompter.

Dessa modeller används inom konstgenerering, fotorealistisk syntes, inpainting, superupplösning och mer.

Sammanfattning

1. Vad är huvudidén bakom diffusionsbaserade generativa modeller?

2. Vad använder DDPM:s framåtriktade process för att lägga till brus vid varje steg?

3. Vilket av följande beskriver bäst scorefunktionens $\nabla_x\log{p(x)}$ roll i score-baserad generativ modellering?

Vad är huvudidén bakom diffusionsbaserade generativa modeller?

Select the correct answer

Återskapa data genom att reversera en gradvis brusningsprocess.

Komprimera data med hjälp av autoencoders

Generera data genom att lägga till brus till ren slump

Sampla direkt från en latent fördelning

Vad använder DDPM:s framåtriktade process för att lägga till brus vid varje steg?

Select the correct answer

Uniform fördelning

Gaussisk fördelning med fast varians

Gaussisk fördelning med ett schemalagt variansvärde $\beta_t$

Bernoulli-fördelning med lärbar sannolikhet

Vilket av följande beskriver bäst scorefunktionens $\nabla_x\log{p(x)}$ roll i score-baserad generativ modellering?

Select the correct answer

Den uppskattar medelvärdet av fördelningen.

Den definierar mängden brus som läggs till under träning.

Den komprimerar data till latenta variabler.

Den styr data mot högsannolikhetsområden under sampling.

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 2. Kapitel 9

Diffusionsmodeller och Sannolikhetsbaserade Generativa Metoder

Förståelse av diffusionsbaserad generering

Avbrusnings-diffusionsprobabilistiska modeller (DDPMs)

Framåtriktad process

Omvänd process

Förlustfunktion

Score-baserad generativ modellering

Tillämpningar inom högupplöst bildgenerering

Sammanfattning

1. Vad är huvudidén bakom diffusionsbaserade generativa modeller?

2. Vad använder DDPM:s framåtriktade process för att lägga till brus vid varje steg?

3. Vilket av följande beskriver bäst scorefunktionens ∇xlog⁡p(x)\nabla_x\log{p(x)}∇x​logp(x) roll i score-baserad generativ modellering?

Awesome!

Diffusionsmodeller och Sannolikhetsbaserade Generativa Metoder

Förståelse av diffusionsbaserad generering

Avbrusnings-diffusionsprobabilistiska modeller (DDPMs)

Framåtriktad process

Omvänd process

Förlustfunktion

Score-baserad generativ modellering

Tillämpningar inom högupplöst bildgenerering

Sammanfattning

1. Vad är huvudidén bakom diffusionsbaserade generativa modeller?

2. Vad använder DDPM:s framåtriktade process för att lägga till brus vid varje steg?

3. Vilket av följande beskriver bäst scorefunktionens ∇xlog⁡p(x)\nabla_x\log{p(x)}∇x​logp(x) roll i score-baserad generativ modellering?

3. Vilket av följande beskriver bäst scorefunktionens $\nabla_x\log{p(x)}$ roll i score-baserad generativ modellering?

3. Vilket av följande beskriver bäst scorefunktionens $\nabla_x\log{p(x)}$ roll i score-baserad generativ modellering?