Generative Adversarielle Netværk (GANs)

Generative Adversarial Networks (GANs) er en klasse af generative modeller introduceret af Ian Goodfellow i 2014. De består af to neurale netværk — Generatoren og Diskriminatoren — som trænes samtidigt i en spilteoretisk ramme. Generatoren forsøger at producere data, der ligner de virkelige data, mens diskriminatoren forsøger at skelne mellem ægte data og genererede data.

GANs lærer at generere datasamples ud fra støj ved at løse et minimax-spil. I løbet af træningen bliver generatoren bedre til at producere realistiske data, og diskriminatoren bliver bedre til at skelne mellem ægte og falske data.

Arkitektur af en GAN

En grundlæggende GAN-model består af to kernekomponenter:

1. Generator (G)

Modtager en tilfældig støjvektor $z \sim p_z(z)$ som input;
Transformerer den gennem et neuralt netværk til en datasample $G(z)$ , der skal ligne data fra den sande fordeling.

2. Discriminator (D)

Modtager enten et ægte datasample $x \sim p_x(x)$ eller et genereret sample $G(z)$ ;
Returnerer en skalar mellem 0 og 1, som estimerer sandsynligheden for, at inputtet er ægte.

Disse to komponenter trænes samtidigt. Generatoren har til formål at producere realistiske samples for at narre diskriminatoren, mens diskriminatoren har til formål at identificere ægte versus genererede samples korrekt.

Minimax-spil i GANs

Kernen i GANs er minimax-spillet, et begreb fra spilteori. I denne opsætning:

Generatoren $G$ og diskriminatoren $D$ er konkurrerende spillere;
$D$ har til formål at maksimere sin evne til at skelne mellem ægte og genererede data;
$G$ har til formål at minimere $D$ 's evne til at opdage dens falske data.

Denne dynamik definerer et nulsumsspil, hvor den ene spillers gevinst er den andens tab. Optimeringen defineres som:

\underset{G}{\min} \, \underset{D}{\max} \, V(D, G) = \mathbb{E}_{\mathbf{x} \sim p_{x}}[\log D(\mathbf{x})] + \mathbb{E}_{\mathbf{z} \sim p_z}[\log(1 - D(G(\mathbf{z})))]

Generatoren forsøger at narre diskriminatoren ved at generere samples $G(z)$ , der er så tæt på ægte data som muligt.

Tab af funktioner

Selvom det oprindelige GAN-mål definerer et minimax-spil, anvendes der i praksis alternative tab-funktioner for at stabilisere træningen.

Ikke-mættende generator-tab:

L_G=-\mathbb{E}_{z \sim p_z}[\log{D(G(z))}]

Dette hjælper generatoren med at modtage stærke gradienter, selv når diskriminatoren klarer sig godt.

Diskriminator-tab:

L_D = -\mathbb{E}_{x \sim p_x}[\log{D(x)}] - \mathbb{E}_{z \sim p_z}[\log{(1-D(G(z)))}]

Disse tab-funktioner tilskynder generatoren til at producere eksempler, der øger diskriminatorens usikkerhed og forbedrer konvergensen under træning.

Centrale varianter af GAN-arkitekturer

Flere typer af GANs er opstået for at håndtere specifikke begrænsninger eller for at forbedre ydeevnen:

Conditional GAN (cGAN)

Conditional GANs udvider den standard GAN-ramme ved at introducere yderligere information (typisk labels) i både generatoren og diskriminatoren. I stedet for kun at generere data ud fra tilfældig støj, modtager generatoren både støj $z$ og en betingelse $y$ (f.eks. en klasse-label). Diskriminatoren modtager også $y$ for at vurdere, om eksemplet er realistisk under den givne betingelse.

Anvendelsesområder: klassebetinget billedgenerering, billede-til-billede-oversættelse, tekst-til-billede-generering.

Deep Convolutional GAN (DCGAN)

DCGANs erstatter de fuldt forbundne lag i de oprindelige GANs med konvolutions- og transponerede konvolutionslag, hvilket gør dem mere effektive til generering af billeder. De introducerer også arkitektoniske retningslinjer såsom fjernelse af fuldt forbundne lag, brug af batch-normalisering og anvendelse af ReLU/LeakyReLU-aktiveringer.

Anvendelsesområder: fotorealistisk billedgenerering, læring af visuelle repræsentationer, uovervåget feature-læring.

CycleGAN CycleGANs adresserer problemet med uparret billede-til-billede-oversættelse. I modsætning til andre modeller, der kræver parrede datasæt (f.eks. det samme foto i to forskellige stilarter), kan CycleGANs lære mappinger mellem to domæner uden parrede eksempler. De introducerer to generatorer og to diskriminatorer, hvor hver er ansvarlig for mapping i én retning (f.eks. fotos til malerier og omvendt), og håndhæver et cykluskonsistens-tab for at sikre, at oversættelse fra ét domæne og tilbage returnerer det oprindelige billede. Dette tab er afgørende for at bevare indhold og struktur.

Cycle-Consistency Loss sikrer:

G_{BA}(G_{AB}(x)) \approx x\ \text{og}\ G_{AB}(G_{BA}(y))\approx y

hvor:

$G_{AB}$ mapper billeder fra domæne A til domæne B;
$G_{BA}$ mapper fra domæne B til domæne A.
$x \in A, y \in B$ .

Anvendelsesområder: foto til kunstværk-konvertering, hest-til-zebra-oversættelse, stemmekonvertering mellem talere.

StyleGAN

StyleGAN, udviklet af NVIDIA, introducerer stilbaseret kontrol i generatoren. I stedet for at føre en støjvektor direkte ind i generatoren, passerer den gennem et mapping-netværk for at producere "stilvektorer", der påvirker hvert lag i generatoren. Dette muliggør fin kontrol over visuelle egenskaber såsom hårfarve, ansigtsudtryk eller belysning.

Bemærkelsesværdige innovationer:

Style mixing, tillader kombination af flere latente koder;
Adaptive Instance Normalization (AdaIN), styrer feature-maps i generatoren;
Progressiv vækst, træning starter ved lav opløsning og øges over tid.

Anvendelsesområder: ultra højopløselig billedgenerering (f.eks. ansigter), visuel attributkontrol, generering af kunst.

Sammenligning: GANs vs VAEs

GANs er en kraftfuld klasse af generative modeller, der kan producere meget realistiske data gennem en adversarial træningsproces. Kernen består af et minimax-spil mellem to netværk, hvor adversarial tab bruges til løbende at forbedre begge komponenter. Et solidt kendskab til deres arkitektur, tabfunktioner—herunder varianter som cGAN, DCGAN, CycleGAN og StyleGAN—samt deres kontrast til andre modeller som VAEs giver praktikere det nødvendige fundament til anvendelser inden for blandt andet generering af billeder, videosyntese, dataforøgelse og mere.

1. Hvilket af følgende beskriver bedst komponenterne i en grundlæggende GAN-arkitektur?

2. Hvad er målet med minimax-spillet i GANs?

3. Hvilket af følgende udsagn er sandt om forskellen mellem GANs og VAEs?

Hvilket af følgende beskriver bedst komponenterne i en grundlæggende GAN-arkitektur?

Select the correct answer

En encoder og en decoder, der trænes uafhængigt.

En generator, der koder ægte data, og en discriminator, der rekonstruerer dem.

En generator, der skaber data, og en discriminator, der vurderer deres realisme.

En variational encoder og en klassifikationsdiscriminator.

Hvad er målet med minimax-spillet i GANs?

Select the correct answer

Minimering af rekonstruktionsfejl mellem input og output.

Træning af både generator og diskriminator til at maksimere det samme tab.

Generatoren minimerer KL-divergens, mens diskriminatoren maksimerer nøjagtighed.

Generatoren forsøger at narre diskriminatoren, mens diskriminatoren forsøger at opdage forfalskninger.

Hvilket af følgende udsagn er sandt om forskellen mellem GANs og VAEs?

Select the correct answer

GANs modellerer eksplicit datalikelihood, VAEs gør ikke.

GANs genererer skarpere output, men træningen er ofte mindre stabil end VAEs.

VAEs anvender adversarial træning til at producere data.

Begge modeller er afhængige af diskriminator-feedback til at opdatere generatoren.

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 2. Kapitel 7

Spørg AI

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Awesome!

Completion rate improved to 4.76

Generative Adversarielle Netværk (GANs)

Stryg for at vise menuen

Arkitektur af en GAN

En grundlæggende GAN-model består af to kernekomponenter:

1. Generator (G)

Modtager en tilfældig støjvektor $z \sim p_z(z)$ som input;
Transformerer den gennem et neuralt netværk til en datasample $G(z)$ , der skal ligne data fra den sande fordeling.

2. Discriminator (D)

Modtager enten et ægte datasample $x \sim p_x(x)$ eller et genereret sample $G(z)$ ;
Returnerer en skalar mellem 0 og 1, som estimerer sandsynligheden for, at inputtet er ægte.

Minimax-spil i GANs

Kernen i GANs er minimax-spillet, et begreb fra spilteori. I denne opsætning:

Generatoren $G$ og diskriminatoren $D$ er konkurrerende spillere;
$D$ har til formål at maksimere sin evne til at skelne mellem ægte og genererede data;
$G$ har til formål at minimere $D$ 's evne til at opdage dens falske data.

Denne dynamik definerer et nulsumsspil, hvor den ene spillers gevinst er den andens tab. Optimeringen defineres som:

\underset{G}{\min} \, \underset{D}{\max} \, V(D, G) = \mathbb{E}_{\mathbf{x} \sim p_{x}}[\log D(\mathbf{x})] + \mathbb{E}_{\mathbf{z} \sim p_z}[\log(1 - D(G(\mathbf{z})))]

Generatoren forsøger at narre diskriminatoren ved at generere samples $G(z)$ , der er så tæt på ægte data som muligt.

Tab af funktioner

Selvom det oprindelige GAN-mål definerer et minimax-spil, anvendes der i praksis alternative tab-funktioner for at stabilisere træningen.

Ikke-mættende generator-tab:

L_G=-\mathbb{E}_{z \sim p_z}[\log{D(G(z))}]

Dette hjælper generatoren med at modtage stærke gradienter, selv når diskriminatoren klarer sig godt.

Diskriminator-tab:

L_D = -\mathbb{E}_{x \sim p_x}[\log{D(x)}] - \mathbb{E}_{z \sim p_z}[\log{(1-D(G(z)))}]

Disse tab-funktioner tilskynder generatoren til at producere eksempler, der øger diskriminatorens usikkerhed og forbedrer konvergensen under træning.

Centrale varianter af GAN-arkitekturer

Flere typer af GANs er opstået for at håndtere specifikke begrænsninger eller for at forbedre ydeevnen:

Conditional GAN (cGAN)

Anvendelsesområder: klassebetinget billedgenerering, billede-til-billede-oversættelse, tekst-til-billede-generering.

Deep Convolutional GAN (DCGAN)

Anvendelsesområder: fotorealistisk billedgenerering, læring af visuelle repræsentationer, uovervåget feature-læring.

Cycle-Consistency Loss sikrer:

G_{BA}(G_{AB}(x)) \approx x\ \text{og}\ G_{AB}(G_{BA}(y))\approx y

hvor:

$G_{AB}$ mapper billeder fra domæne A til domæne B;
$G_{BA}$ mapper fra domæne B til domæne A.
$x \in A, y \in B$ .

Anvendelsesområder: foto til kunstværk-konvertering, hest-til-zebra-oversættelse, stemmekonvertering mellem talere.

StyleGAN

Bemærkelsesværdige innovationer:

Style mixing, tillader kombination af flere latente koder;
Adaptive Instance Normalization (AdaIN), styrer feature-maps i generatoren;
Progressiv vækst, træning starter ved lav opløsning og øges over tid.

Anvendelsesområder: ultra højopløselig billedgenerering (f.eks. ansigter), visuel attributkontrol, generering af kunst.

Sammenligning: GANs vs VAEs

1. Hvilket af følgende beskriver bedst komponenterne i en grundlæggende GAN-arkitektur?

2. Hvad er målet med minimax-spillet i GANs?

3. Hvilket af følgende udsagn er sandt om forskellen mellem GANs og VAEs?

Hvilket af følgende beskriver bedst komponenterne i en grundlæggende GAN-arkitektur?

Select the correct answer

En encoder og en decoder, der trænes uafhængigt.

En generator, der koder ægte data, og en discriminator, der rekonstruerer dem.

En generator, der skaber data, og en discriminator, der vurderer deres realisme.

En variational encoder og en klassifikationsdiscriminator.

Hvad er målet med minimax-spillet i GANs?

Select the correct answer

Minimering af rekonstruktionsfejl mellem input og output.

Træning af både generator og diskriminator til at maksimere det samme tab.

Generatoren minimerer KL-divergens, mens diskriminatoren maksimerer nøjagtighed.

Generatoren forsøger at narre diskriminatoren, mens diskriminatoren forsøger at opdage forfalskninger.

Hvilket af følgende udsagn er sandt om forskellen mellem GANs og VAEs?

Select the correct answer

GANs modellerer eksplicit datalikelihood, VAEs gør ikke.

GANs genererer skarpere output, men træningen er ofte mindre stabil end VAEs.

VAEs anvender adversarial træning til at producere data.

Begge modeller er afhængige af diskriminator-feedback til at opdatere generatoren.

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 2. Kapitel 7