Generative Adversarial Nettverk (GANs)

Generative Adversarial Networks (GANs) er en klasse av generative modeller introdusert av Ian Goodfellow i 2014. De består av to nevrale nettverk — Generatoren og Diskriminatoren — som trenes samtidig i et spillteoretisk rammeverk. Generatoren forsøker å produsere data som ligner på de ekte dataene, mens diskriminatoren prøver å skille ekte data fra genererte data.

GAN-er lærer å generere datasett fra støy ved å løse et minimaks-spill. I løpet av treningen blir generatoren bedre til å produsere realistiske data, og diskriminatoren blir bedre til å skille mellom ekte og falske data.

Arkitektur av en GAN

En grunnleggende GAN-modell består av to kjernekomponenter:

1. Generator (G)

Tar en tilfeldig støyvektor $z \sim p_z(z)$ som input;
Transformerer denne gjennom et nevralt nettverk til et datasett $G(z)$ som skal ligne på data fra den sanne fordelingen.

2. Diskriminator (D)

Tar enten et ekte datasample $x \sim p_x(x)$ eller et generert sample $G(z)$ ;
Returnerer en skalar mellom 0 og 1, som estimerer sannsynligheten for at inputen er ekte.

Disse to komponentene trenes samtidig. Generatoren har som mål å produsere realistiske eksempler for å lure diskriminatoren, mens diskriminatoren har som mål å korrekt identifisere ekte versus genererte eksempler.

Minimax-spill i GANs

Kjernen i GANs er minimax-spillet, et begrep fra spillteori. I denne konteksten:

Generatoren $G$ og diskriminatoren $D$ er konkurrerende aktører;
$D$ har som mål å maksimere sin evne til å skille mellom ekte og genererte data;
$G$ har som mål å minimere $D$ sin evne til å oppdage dens falske data.

Denne dynamikken definerer et nullsumspill, der én aktørs gevinst er den andres tap. Optimaliseringen er definert som:

\underset{G}{\min} \, \underset{D}{\max} \, V(D, G) = \mathbb{E}_{\mathbf{x} \sim p_{x}}[\log D(\mathbf{x})] + \mathbb{E}_{\mathbf{z} \sim p_z}[\log(1 - D(G(\mathbf{z})))]

Generatoren forsøker å lure diskriminatoren ved å generere eksempler $G(z)$ som er så nær ekte data som mulig.

Tapefunksjoner

Selv om det opprinnelige GAN-målet definerer et minimaks-spill, benyttes det i praksis alternative tapefunksjoner for å stabilisere treningen.

Ikke-mettende generator-tap:

L_G=-\mathbb{E}_{z \sim p_z}[\log{D(G(z))}]

Dette hjelper generatoren med å motta sterke gradienter selv når diskriminatoren presterer godt.

Diskriminator-tap:

L_D = -\mathbb{E}_{x \sim p_x}[\log{D(x)}] - \mathbb{E}_{z \sim p_z}[\log{(1-D(G(z)))}]

Disse tapene oppmuntrer generatoren til å produsere eksempler som øker diskriminatorens usikkerhet og forbedrer konvergensen under trening.

Viktige varianter av GAN-arkitekturer

Flere typer GAN-er har oppstått for å håndtere spesifikke begrensninger eller for å forbedre ytelsen:

Betinget GAN (cGAN)

Betingede GAN-er utvider det standard GAN-rammeverket ved å introdusere tilleggsinformasjon (vanligvis etiketter) i både generatoren og diskriminatoren. I stedet for å generere data kun fra tilfeldig støy, mottar generatoren både støy $z$ og en betingelse $y$ (f.eks. en klasseetikett). Diskriminatoren mottar også $y$ for å vurdere om eksemplet er realistisk under den betingelsen.

Bruksområder: klassebetinget bildegenerering, bilde-til-bilde-oversettelse, tekst-til-bilde-generering.

Deep Convolutional GAN (DCGAN)

DCGANer erstatter de fullt tilkoblede lagene i de opprinnelige GANene med konvolusjons- og transponerte konvolusjonslag, noe som gjør dem mer effektive for generering av bilder. De introduserer også arkitektoniske retningslinjer som å fjerne fullt tilkoblede lag, bruke batch-normalisering og benytte ReLU/LeakyReLU-aktiveringer.

Bruksområder: fotorealistisk bildegenerering, læring av visuelle representasjoner, usupervisert egenskapslæring.

CycleGAN CycleGANer løser problemet med uparret bilde-til-bilde-oversettelse. I motsetning til andre modeller som krever parvise datasett (f.eks. det samme bildet i to forskjellige stiler), kan CycleGANer lære sammenhenger mellom to domener uten parvise eksempler. De introduserer to generatorer og to diskriminatorer, hver ansvarlig for å mappe i én retning (f.eks. bilder til malerier og omvendt), og håndhever et sykluskonsistens-tap for å sikre at oversettelse fra ett domene og tilbake gir det opprinnelige bildet. Dette tapet er avgjørende for å bevare innhold og struktur.

Sykluskonsistens-tap sikrer:

G_{BA}(G_{AB}(x)) \approx x\ \text{og}\ G_{AB}(G_{BA}(y))\approx y

hvor:

$G_{AB}$ mapper bilder fra domene A til domene B;
$G_{BA}$ mapper fra domene B til domene A.
$x \in A, y \in B$ .

Bruksområder: konvertering fra foto til kunstverk, oversettelse fra hest til sebra, stemmekonvertering mellom talere.

StyleGAN

StyleGAN, utviklet av NVIDIA, introduserer stilbasert kontroll i generatoren. I stedet for å mate en støyvektor direkte til generatoren, går den gjennom et kartleggingsnettverk for å produsere "stilvektorer" som påvirker hvert lag i generatoren. Dette muliggjør finjustert kontroll over visuelle egenskaper som hårfarge, ansiktsuttrykk eller belysning.

Viktige innovasjoner:

Stilblanding, gjør det mulig å kombinere flere latente koder;
Adaptive Instance Normalization (AdaIN), styrer egenskapskart i generatoren;
Progressiv vekst, treningen starter med lav oppløsning og øker over tid.

Bruksområder: generering av ultrahøyoppløselige bilder (f.eks. ansikter), kontroll av visuelle attributter, kunstgenerering.

Sammenligning: GANs vs VAEs

GANs er en kraftig klasse av generative modeller som kan produsere svært realistiske data gjennom en adversarial treningsprosess. Kjernen deres ligger i et minimax-spill mellom to nettverk, hvor adversarial-tap brukes for å forbedre begge komponentene iterativt. En solid forståelse av deres arkitektur, tapfunksjoner—inkludert varianter som cGAN, DCGAN, CycleGAN og StyleGAN—og deres kontrast til andre modeller som VAEs gir praktikere det nødvendige grunnlaget for anvendelser innen blant annet generering av bilder, videosyntese, dataforsterkning og mer.

1. Hvilket av følgende beskriver best komponentene i en grunnleggende GAN-arkitektur?

2. Hva er målet med minimax-spillet i GANs?

3. Hvilket av følgende utsagn er sant om forskjellen mellom GANs og VAEs?

Hvilket av følgende beskriver best komponentene i en grunnleggende GAN-arkitektur?

Select the correct answer

En enkoder og en dekoder trent uavhengig av hverandre.

En generator som koder ekte data og en diskriminator som rekonstruerer den.

En generator som lager data og en diskriminator som vurderer realismen.

En variansenkoder og en klassifiseringsdiskriminator.

Hva er målet med minimax-spillet i GANs?

Select the correct answer

Minimere rekonstruksjonsfeil mellom input og output.

Trene både generator og diskriminator til å maksimere samme tap.

Generatoren minimerer KL-divergens mens diskriminatoren maksimerer nøyaktighet.

Generatoren prøver å lure diskriminatoren, mens diskriminatoren prøver å oppdage forfalskninger.

Hvilket av følgende utsagn er sant om forskjellen mellom GANs og VAEs?

Select the correct answer

GAN-er modellerer eksplisitt datalikelihood, VAE-er gjør det ikke.

GAN-er genererer skarpere resultater, men treningen er ofte mindre stabil enn for VAE-er.

VAE-er bruker adversarial trening for å produsere data.

Begge modellene er avhengige av tilbakemelding fra diskriminatoren for å oppdatere generatoren.

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 2. Kapittel 7

Spør AI

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Awesome!

Completion rate improved to 4.76

Generative Adversarial Nettverk (GANs)

Sveip for å vise menyen

Arkitektur av en GAN

En grunnleggende GAN-modell består av to kjernekomponenter:

1. Generator (G)

Tar en tilfeldig støyvektor $z \sim p_z(z)$ som input;
Transformerer denne gjennom et nevralt nettverk til et datasett $G(z)$ som skal ligne på data fra den sanne fordelingen.

2. Diskriminator (D)

Tar enten et ekte datasample $x \sim p_x(x)$ eller et generert sample $G(z)$ ;
Returnerer en skalar mellom 0 og 1, som estimerer sannsynligheten for at inputen er ekte.

Minimax-spill i GANs

Kjernen i GANs er minimax-spillet, et begrep fra spillteori. I denne konteksten:

Generatoren $G$ og diskriminatoren $D$ er konkurrerende aktører;
$D$ har som mål å maksimere sin evne til å skille mellom ekte og genererte data;
$G$ har som mål å minimere $D$ sin evne til å oppdage dens falske data.

Denne dynamikken definerer et nullsumspill, der én aktørs gevinst er den andres tap. Optimaliseringen er definert som:

\underset{G}{\min} \, \underset{D}{\max} \, V(D, G) = \mathbb{E}_{\mathbf{x} \sim p_{x}}[\log D(\mathbf{x})] + \mathbb{E}_{\mathbf{z} \sim p_z}[\log(1 - D(G(\mathbf{z})))]

Generatoren forsøker å lure diskriminatoren ved å generere eksempler $G(z)$ som er så nær ekte data som mulig.

Tapefunksjoner

Selv om det opprinnelige GAN-målet definerer et minimaks-spill, benyttes det i praksis alternative tapefunksjoner for å stabilisere treningen.

Ikke-mettende generator-tap:

L_G=-\mathbb{E}_{z \sim p_z}[\log{D(G(z))}]

Dette hjelper generatoren med å motta sterke gradienter selv når diskriminatoren presterer godt.

Diskriminator-tap:

L_D = -\mathbb{E}_{x \sim p_x}[\log{D(x)}] - \mathbb{E}_{z \sim p_z}[\log{(1-D(G(z)))}]

Disse tapene oppmuntrer generatoren til å produsere eksempler som øker diskriminatorens usikkerhet og forbedrer konvergensen under trening.

Viktige varianter av GAN-arkitekturer

Flere typer GAN-er har oppstått for å håndtere spesifikke begrensninger eller for å forbedre ytelsen:

Betinget GAN (cGAN)

Bruksområder: klassebetinget bildegenerering, bilde-til-bilde-oversettelse, tekst-til-bilde-generering.

Deep Convolutional GAN (DCGAN)

Bruksområder: fotorealistisk bildegenerering, læring av visuelle representasjoner, usupervisert egenskapslæring.

Sykluskonsistens-tap sikrer:

G_{BA}(G_{AB}(x)) \approx x\ \text{og}\ G_{AB}(G_{BA}(y))\approx y

hvor:

$G_{AB}$ mapper bilder fra domene A til domene B;
$G_{BA}$ mapper fra domene B til domene A.
$x \in A, y \in B$ .

Bruksområder: konvertering fra foto til kunstverk, oversettelse fra hest til sebra, stemmekonvertering mellom talere.

StyleGAN

Viktige innovasjoner:

Stilblanding, gjør det mulig å kombinere flere latente koder;
Adaptive Instance Normalization (AdaIN), styrer egenskapskart i generatoren;
Progressiv vekst, treningen starter med lav oppløsning og øker over tid.

Bruksområder: generering av ultrahøyoppløselige bilder (f.eks. ansikter), kontroll av visuelle attributter, kunstgenerering.

Sammenligning: GANs vs VAEs

1. Hvilket av følgende beskriver best komponentene i en grunnleggende GAN-arkitektur?

2. Hva er målet med minimax-spillet i GANs?

3. Hvilket av følgende utsagn er sant om forskjellen mellom GANs og VAEs?

Hvilket av følgende beskriver best komponentene i en grunnleggende GAN-arkitektur?

Select the correct answer

En enkoder og en dekoder trent uavhengig av hverandre.

En generator som koder ekte data og en diskriminator som rekonstruerer den.

En generator som lager data og en diskriminator som vurderer realismen.

En variansenkoder og en klassifiseringsdiskriminator.

Hva er målet med minimax-spillet i GANs?

Select the correct answer

Minimere rekonstruksjonsfeil mellom input og output.

Trene både generator og diskriminator til å maksimere samme tap.

Generatoren minimerer KL-divergens mens diskriminatoren maksimerer nøyaktighet.

Generatoren prøver å lure diskriminatoren, mens diskriminatoren prøver å oppdage forfalskninger.

Hvilket av følgende utsagn er sant om forskjellen mellom GANs og VAEs?

Select the correct answer

GAN-er modellerer eksplisitt datalikelihood, VAE-er gjør det ikke.

GAN-er genererer skarpere resultater, men treningen er ofte mindre stabil enn for VAE-er.

VAE-er bruker adversarial trening for å produsere data.

Begge modellene er avhengige av tilbakemelding fra diskriminatoren for å oppdatere generatoren.

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 2. Kapittel 7