Diffusionsmodeller och Probabilistiska Generativa Metoder
Svep för att visa menyn
Förståelse av diffusionsbaserad generering
Diffusionsmodeller är en kraftfull typ av AI-modell som genererar data – särskilt bilder – genom att lära sig att reversera en process där slumpmässigt brus läggs till. Föreställ dig att du ser en klar bild gradvis bli suddig, likt brus på en TV. En diffusionsmodell lär sig att göra motsatsen: den tar brusiga bilder och återskapar den ursprungliga bilden genom att stegvis ta bort bruset.
Processen involverar två huvudfaser:
- Framåtriktad process (diffusion): lägger gradvis till slumpmässigt brus på en bild under många steg, vilket förstör den till rent brus;
- Omvänd process (avbrusning): ett neuralt nätverk lär sig att ta bort bruset steg för steg och återskapar den ursprungliga bilden från den brusiga versionen.
Diffusionsmodeller är kända för sin förmåga att producera högkvalitativa, realistiska bilder. Deras träning är vanligtvis mer stabil jämfört med modeller som GANs, vilket gör dem mycket attraktiva inom modern generativ AI.
Denoising Diffusion Probabilistic Models (DDPMs)
Denoising diffusion probabilistic models (DDPMs) är en populär typ av diffusionsmodell som tillämpar sannolikhetsprinciper och djupinlärning för att ta bort brus från bilder på ett stegvis sätt.
Framåtriktad process
I den framåtriktade processen börjar vi med en verklig bild x0 och lägger gradvis till Gaussiskt brus över T tidssteg:
q(xt∣xt−1)=N(xt;1−βtxt−1,βtI)Där:
- xt: brusad version av indata vid tidssteget;
- βt: liten variansschema som styr hur mycket brus som läggs till;
- N: Gaussisk fördelning.
Den totala mängden brus som lagts till fram till steg kan också uttryckas som:
q(xt∣x0)=N(xt;αˉtx0,(1−αˉt)I)Där:
- αˉt=∏s=1t(1−βs)
Omvänd process
Målet med modellen är att lära sig omvändningen av denna process. Ett neuralt nätverk parameteriserat av θ förutspår medelvärde och varians för den avbrusade fördelningen:
pθ(xt−1∣xt)=N(xt−1;μθ(xt,t),Σθ(xt,t))Där:
- xt: brusad bild vid tidpunkt t;
- xt−1: förutsagd mindre brusad bild vid steg t−1;
- μθ: förutsagt medelvärde från det neurala nätverket;
- Σθ: förutsagd varians från det neurala nätverket.
Förlustfunktion
Träningen innebär att minimera skillnaden mellan det faktiska bruset och modellens förutsagda brus med följande mål:
Lsimple=Ex0,ϵ,t[∣∣ϵ−ϵ0(αˉtx0+1−αˉtϵ,t)∣∣2]Där:
- xt: ursprunglig inmatningsbild;
- ϵ: slumpmässigt Gaussiskt brus;
- t: tidssteg under diffusionen;
- ϵθ: neuralt nätverks förutsägelse av brus;
- αˉt: Produkt av brusplaneringsparametrar upp till steg t.
Detta hjälper modellen att bli bättre på avbrusning och förbättrar dess förmåga att generera realistiska data.
Score-baserad generativ modellering
Score-baserade modeller är en annan klass av diffusionsmodeller. Istället för att direkt lära sig den omvända brusprocessen, lär de sig scorefunktionen:
∇xlogp(x)Där:
- ∇xlogp(x): gradienten av log-sannolikhetstätheten med avseende på indata x. Denna pekar i riktning mot ökad sannolikhet under datadistributionen;
- p(x): sannolikhetsfördelningen för data.
Denna funktion anger för modellen i vilken riktning bilden bör förändras för att bli mer lik verkliga data. Dessa modeller använder sedan en samplingsmetod som Langevin-dynamik för att gradvis flytta brusiga data mot områden med hög sannolikhet.
Score-baserade modeller arbetar ofta i kontinuerlig tid med hjälp av stokastiska differentialekvationer (SDEs). Detta kontinuerliga tillvägagångssätt ger flexibilitet och kan producera högkvalitativa genereringar över olika datatyper.
Tillämpningar inom högupplöst bildgenerering
Diffusionsmodeller har revolutionerat generativa uppgifter, särskilt inom högupplöst visuell generering. Anmärkningsvärda tillämpningar inkluderar:
- Stable Diffusion: en latent diffusionsmodell som genererar bilder från textprompter. Den kombinerar en U-Net-baserad avbrusningsmodell med en variational autoencoder (VAE) för att arbeta i latent utrymme;
- DALL·E 2: kombinerar CLIP-inbäddningar och diffusionsbaserad avkodning för att generera mycket realistiska och semantiska bilder från text;
- MidJourney: en diffusionsbaserad plattform för bildgenerering känd för att producera högkvalitativa, konstnärligt stiliserade bilder från abstrakta eller kreativa prompter.
Dessa modeller används inom konstgenerering, fotorealistisk syntes, inpainting, superupplösning och mer.
Sammanfattning
Diffusionsmodeller definierar en ny era av generativ modellering genom att behandla datagenerering som en stokastisk process i omvänd tid. Genom DDPM:er och score-baserade modeller uppnår de robust träning, hög provkvalitet och övertygande resultat över olika modaliteter. Deras förankring i sannolikhets- och termodynamiska principer gör dem både matematiskt eleganta och praktiskt kraftfulla.
1. Vad är huvudidén bakom diffusionsbaserade generativa modeller?
2. Vad använder DDPM:s framåtriktade process för att lägga till brus vid varje steg?
3. Vilket av följande beskriver bäst scorefunktionens ∇xlogp(x) roll i score-baserad generativ modellering?
Tack för dina kommentarer!
Fråga AI
Fråga AI
Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal