Lära Diffusionsmodeller och Probabilistiska Generativa Metoder

Svep för att visa menyn

Förståelse av diffusionsbaserad generering

Diffusionsmodeller är en kraftfull typ av AI-modell som genererar data – särskilt bilder – genom att lära sig att reversera en process där slumpmässigt brus läggs till. Föreställ dig att du ser en klar bild gradvis bli suddig, likt brus på en TV. En diffusionsmodell lär sig att göra motsatsen: den tar brusiga bilder och återskapar den ursprungliga bilden genom att stegvis ta bort bruset.

Processen involverar två huvudfaser:

Framåtriktad process (diffusion): lägger gradvis till slumpmässigt brus på en bild under många steg, vilket förstör den till rent brus;
Omvänd process (avbrusning): ett neuralt nätverk lär sig att ta bort bruset steg för steg och återskapar den ursprungliga bilden från den brusiga versionen.

Diffusionsmodeller är kända för sin förmåga att producera högkvalitativa, realistiska bilder. Deras träning är vanligtvis mer stabil jämfört med modeller som GANs, vilket gör dem mycket attraktiva inom modern generativ AI.

Denoising Diffusion Probabilistic Models (DDPMs)

Denoising diffusion probabilistic models (DDPMs) är en populär typ av diffusionsmodell som tillämpar sannolikhetsprinciper och djupinlärning för att ta bort brus från bilder på ett stegvis sätt.

Framåtriktad process

I den framåtriktade processen börjar vi med en verklig bild $x_0$ och lägger gradvis till Gaussiskt brus över $T$ tidssteg:

q(x_t|x_{t-1})= \mathcal{N}(x_t;\sqrt{1-\beta_t}x_{t-1},\beta_tI)

Där:

$x_t$ : brusad version av indata vid tidssteget;
$\beta_t$ : liten variansschema som styr hur mycket brus som läggs till;
$\mathcal{N}$ : Gaussisk fördelning.

Den totala mängden brus som lagts till fram till steg kan också uttryckas som:

q(x_t|x_0)= \mathcal{N}(x_t;\sqrt{\={\alpha}_t}x_0,(1-\={\alpha}_t)I)

Där:

$\=\alpha_t=\prod_{s=1}^t(1-\beta_s)$

Omvänd process

Målet med modellen är att lära sig omvändningen av denna process. Ett neuralt nätverk parameteriserat av $\theta$ förutspår medelvärde och varians för den avbrusade fördelningen:

p_\theta(x_{t-1}|x_t) = \mathcal{N}(x_{t-1};\mu_\theta(x_t,t), \Sigma_\theta(x_t,t))

Där:

$x_t$ : brusad bild vid tidpunkt $t$ ;
$x_{t-1}$ : förutsagd mindre brusad bild vid steg $t-1$ ;
$\mu_\theta$ : förutsagt medelvärde från det neurala nätverket;
$\Sigma_\theta$ : förutsagd varians från det neurala nätverket.

Förlustfunktion

Träningen innebär att minimera skillnaden mellan det faktiska bruset och modellens förutsagda brus med följande mål:

L_{simple} = \mathbb{E}_{x_0, \epsilon, t} \left[ ||\epsilon - \epsilon_0 \left( \sqrt{\=\alpha_t}x_0 + \sqrt{1-\=\alpha_t}\epsilon, t \right)||^2 \right]

Där:

$x_t$ : ursprunglig inmatningsbild;
$\epsilon$ : slumpmässigt Gaussiskt brus;
$t$ : tidssteg under diffusionen;
$\epsilon_\theta$ : neuralt nätverks förutsägelse av brus;
$\={\alpha}_t$ : Produkt av brusplaneringsparametrar upp till steg $t$ .

Detta hjälper modellen att bli bättre på avbrusning och förbättrar dess förmåga att generera realistiska data.

Score-baserad generativ modellering

Score-baserade modeller är en annan klass av diffusionsmodeller. Istället för att direkt lära sig den omvända brusprocessen, lär de sig scorefunktionen:

\nabla_x\log{p(x)}

Där:

$\nabla_x\log{p(x)}$ : gradienten av log-sannolikhetstätheten med avseende på indata $x$ . Denna pekar i riktning mot ökad sannolikhet under datadistributionen;
$p(x)$ : sannolikhetsfördelningen för data.

Denna funktion anger för modellen i vilken riktning bilden bör förändras för att bli mer lik verkliga data. Dessa modeller använder sedan en samplingsmetod som Langevin-dynamik för att gradvis flytta brusiga data mot områden med hög sannolikhet.

Score-baserade modeller arbetar ofta i kontinuerlig tid med hjälp av stokastiska differentialekvationer (SDEs). Detta kontinuerliga tillvägagångssätt ger flexibilitet och kan producera högkvalitativa genereringar över olika datatyper.

Tillämpningar inom högupplöst bildgenerering

Diffusionsmodeller har revolutionerat generativa uppgifter, särskilt inom högupplöst visuell generering. Anmärkningsvärda tillämpningar inkluderar:

Stable Diffusion: en latent diffusionsmodell som genererar bilder från textprompter. Den kombinerar en U-Net-baserad avbrusningsmodell med en variational autoencoder (VAE) för att arbeta i latent utrymme;
DALL·E 2: kombinerar CLIP-inbäddningar och diffusionsbaserad avkodning för att generera mycket realistiska och semantiska bilder från text;
MidJourney: en diffusionsbaserad plattform för bildgenerering känd för att producera högkvalitativa, konstnärligt stiliserade bilder från abstrakta eller kreativa prompter.

Dessa modeller används inom konstgenerering, fotorealistisk syntes, inpainting, superupplösning och mer.

Sammanfattning

Diffusionsmodeller definierar en ny era av generativ modellering genom att behandla datagenerering som en stokastisk process i omvänd tid. Genom DDPM:er och score-baserade modeller uppnår de robust träning, hög provkvalitet och övertygande resultat över olika modaliteter. Deras förankring i sannolikhets- och termodynamiska principer gör dem både matematiskt eleganta och praktiskt kraftfulla.

Var allt tydligt?

Tack för dina kommentarer!

Avsnitt 1. Kapitel 10

Fråga AI

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Avsnitt 1. Kapitel 10

Diffusionsmodeller och Probabilistiska Generativa Metoder

Förståelse av diffusionsbaserad generering

Denoising Diffusion Probabilistic Models (DDPMs)

Framåtriktad process

Omvänd process

Förlustfunktion

Score-baserad generativ modellering

Tillämpningar inom högupplöst bildgenerering

Sammanfattning

1. Vad är huvudidén bakom diffusionsbaserade generativa modeller?

2. Vad använder DDPM:s framåtriktade process för att lägga till brus vid varje steg?

3. Vilket av följande beskriver bäst scorefunktionens $\nabla_x\log{p(x)}$ roll i score-baserad generativ modellering?

Diffusionsmodeller och Probabilistiska Generativa Metoder

Förståelse av diffusionsbaserad generering

Denoising Diffusion Probabilistic Models (DDPMs)

Framåtriktad process

Omvänd process

Förlustfunktion

Score-baserad generativ modellering

Tillämpningar inom högupplöst bildgenerering

Sammanfattning

1. Vad är huvudidén bakom diffusionsbaserade generativa modeller?

2. Vad använder DDPM:s framåtriktade process för att lägga till brus vid varje steg?

3. Vilket av följande beskriver bäst scorefunktionens ∇xlog⁡p(x)\nabla_x\log{p(x)}∇x​logp(x) roll i score-baserad generativ modellering?

3. Vilket av följande beskriver bäst scorefunktionens $\nabla_x\log{p(x)}$ roll i score-baserad generativ modellering?