Generativa Adversariella Nätverk (GANs)

Generativa Adversariella Nätverk (GANs) är en klass av generativa modeller som introducerades av Ian Goodfellow år 2014. De består av två neurala nätverk — Generatorn och Diskriminatorn — som tränas samtidigt inom en spelteoretisk ram. Generatorn försöker producera data som liknar verklig data, medan diskriminatorn försöker särskilja verklig data från genererad data.

GANs lär sig att generera dataprover från brus genom att lösa ett minimax-spel. Under träningens gång blir generatorn bättre på att producera realistisk data, och diskriminatorn blir bättre på att särskilja verklig från falsk data.

Arkitektur för en GAN

En grundläggande GAN-modell består av två kärnkomponenter:

1. Generator (G)

Tar en slumpmässig brusvektor $z \sim p_z(z)$ som indata;
Transformerar den genom ett neuralt nätverk till ett dataprov $G(z)$ som är avsett att likna data från den sanna fördelningen.

2. Discriminator (D)

Tar emot antingen ett verkligt dataprover $x \sim p_x(x)$ eller ett genererat prov $G(z)$ ;
Returnerar ett skalärt värde mellan 0 och 1, vilket uppskattar sannolikheten att indata är verklig.

Dessa två komponenter tränas samtidigt. Generatorn syftar till att producera realistiska prover för att lura diskriminatorn, medan diskriminatorn syftar till att korrekt identifiera verkliga kontra genererade prover.

Minimaxspel för GANs

I kärnan av GANs finns minimaxspelet, ett begrepp från spelteori. I denna uppställning:

Generatorn $G$ och diskriminatorn $D$ är konkurrerande spelare;
$D$ syftar till att maximera sin förmåga att särskilja verkliga från genererade data;
$G$ syftar till att minimera $D$ :s förmåga att upptäcka dess falska data.

Denna dynamik definierar ett nollsummespel, där den enes vinst är den andres förlust. Optimeringen definieras som:

\underset{G}{\min} \, \underset{D}{\max} \, V(D, G) = \mathbb{E}_{\mathbf{x} \sim p_{x}}[\log D(\mathbf{x})] + \mathbb{E}_{\mathbf{z} \sim p_z}[\log(1 - D(G(\mathbf{z})))]

Generatorn försöker lura diskriminatorn genom att generera prover $G(z)$ som är så nära verkliga data som möjligt.

Förlustfunktioner

Även om det ursprungliga GAN-målet definierar ett minimax-spel, används i praktiken alternativa förlustfunktioner för att stabilisera träningen.

Icke-mättande generatorförlust:

L_G=-\mathbb{E}_{z \sim p_z}[\log{D(G(z))}]

Detta hjälper generatorn att få starka gradienter även när diskriminatorn presterar bra.

Diskriminatorförlust:

L_D = -\mathbb{E}_{x \sim p_x}[\log{D(x)}] - \mathbb{E}_{z \sim p_z}[\log{(1-D(G(z)))}]

Dessa förluster uppmuntrar generatorn att producera exempel som ökar diskriminatorns osäkerhet och förbättrar konvergensen under träningen.

Viktiga varianter av GAN-arkitekturer

Flera typer av GAN har utvecklats för att hantera specifika begränsningar eller för att förbättra prestandan:

Villkorlig GAN (cGAN)

Villkorliga GAN utökar det standardiserade GAN-ramverket genom att införa ytterligare information (vanligtvis etiketter) i både generatorn och diskriminatorn. Istället för att generera data enbart från slumpmässigt brus, får generatorn både brus $z$ och ett villkor $y$ (t.ex. en klassetikett). Diskriminatorn får också $y$ för att avgöra om exemplet är realistiskt under det villkoret.

Användningsområden: klassvillkorlig bildgenerering, bild-till-bild-översättning, text-till-bild-generering.

Deep Convolutional GAN (DCGAN)

DCGANs ersätter de helt anslutna lagren i de ursprungliga GAN-modellerna med konvolutionslager och transponerade konvolutionslager, vilket gör dem mer effektiva för bildgenerering. De introducerar även arkitektoniska riktlinjer såsom att ta bort helt anslutna lager, använda batchnormalisering och använda ReLU/LeakyReLU-aktiveringar.

Användningsområden: fotorealistisk bildgenerering, inlärning av visuella representationer, oövervakad funktionsinlärning.

CycleGAN CycleGANs hanterar problemet med oparad bild-till-bild-översättning. Till skillnad från andra modeller som kräver parade datamängder (t.ex. samma foto i två olika stilar), kan CycleGANs lära sig mappningar mellan två domäner utan parade exempel. De introducerar två generatorer och två diskriminatorer, där varje ansvarar för mappning i en riktning (t.ex. foton till målningar och vice versa), och tillämpar en cykelkonsistensförlust för att säkerställa att översättning från en domän och tillbaka återger den ursprungliga bilden. Denna förlust är avgörande för att bevara innehåll och struktur.

Cycle-Consistency Loss säkerställer:

G_{BA}(G_{AB}(x)) \approx x\ \text{och}\ G_{AB}(G_{BA}(y))\approx y

Där:

$G_{AB}$ mappar bilder från domän A till domän B;
$G_{BA}$ mappar från domän B till domän A.
$x \in A, y \in B$ .

Användningsområden: konvertering från foto till konstverk, översättning mellan häst och zebra, röstomvandling mellan talare.

StyleGAN

StyleGAN, utvecklad av NVIDIA, introducerar stilbaserad kontroll i generatorn. Istället för att mata in en brusvektor direkt till generatorn, passerar den genom ett mappningsnätverk för att producera "stilvektorer" som påverkar varje lager i generatorn. Detta möjliggör finjusterad kontroll över visuella egenskaper såsom hårfärg, ansiktsuttryck eller belysning.

Anmärkningsvärda innovationer:

Stilblandning, möjliggör kombination av flera latenta koder;
Adaptive Instance Normalization (AdaIN), styr funktionskartor i generatorn;
Progressiv tillväxt, träningen startar på låg upplösning och ökar över tid.

Användningsområden: ultrahögupplöst bildgenerering (t.ex. ansikten), kontroll av visuella attribut, konstgenerering.

Jämförelse: GANs vs VAEs

GANs är en kraftfull klass av generativa modeller som kan producera mycket realistisk data genom en adversariell träningsprocess. Kärnan utgörs av ett minimax-spel mellan två nätverk, där adversariella förluster används för att iterativt förbättra båda komponenterna. En god förståelse för deras arkitektur, förlustfunktioner—inklusive varianter som cGAN, DCGAN, CycleGAN och StyleGAN—samt deras kontrast mot andra modeller såsom VAEs ger praktiker den nödvändiga grunden för tillämpningar inom områden som bildgenerering, videosyntes, dataförstärkning och mer.

1. Vilket av följande beskriver bäst komponenterna i en grundläggande GAN-arkitektur?

2. Vad är målet med minimax-spelet i GANs?

3. Vilket av följande påståenden är sant om skillnaden mellan GANs och VAEs?

Vilket av följande beskriver bäst komponenterna i en grundläggande GAN-arkitektur?

Select the correct answer

En encoder och en decoder som tränas oberoende av varandra.

En generator som kodar verklig data och en diskriminator som rekonstruerar den.

En generator som skapar data och en diskriminator som utvärderar dess realism.

En variational encoder och en klassificerande diskriminator.

Vad är målet med minimax-spelet i GANs?

Select the correct answer

Minimera rekonstruktionsfel mellan indata och utdata.

Träna både generator och diskriminator för att maximera samma förlust.

Generatorn minimerar KL-divergens medan diskriminatorn maximerar noggrannhet.

Generatorn försöker lura diskriminatorn medan diskriminatorn försöker upptäcka förfalskningar.

Vilket av följande påståenden är sant om skillnaden mellan GANs och VAEs?

Select the correct answer

GANs modellerar explicit datalikelihood, VAEs gör det inte.

GANs genererar skarpare utdata, men träningen är ofta mindre stabil än VAEs.

VAEs använder adversariell träning för att producera data.

Båda modellerna förlitar sig på diskriminatorns återkoppling för att uppdatera generatorn.

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 2. Kapitel 7

Fråga AI

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Awesome!

Completion rate improved to 4.76

Generativa Adversariella Nätverk (GANs)

Svep för att visa menyn

Arkitektur för en GAN

En grundläggande GAN-modell består av två kärnkomponenter:

1. Generator (G)

Tar en slumpmässig brusvektor $z \sim p_z(z)$ som indata;
Transformerar den genom ett neuralt nätverk till ett dataprov $G(z)$ som är avsett att likna data från den sanna fördelningen.

2. Discriminator (D)

Tar emot antingen ett verkligt dataprover $x \sim p_x(x)$ eller ett genererat prov $G(z)$ ;
Returnerar ett skalärt värde mellan 0 och 1, vilket uppskattar sannolikheten att indata är verklig.

Minimaxspel för GANs

I kärnan av GANs finns minimaxspelet, ett begrepp från spelteori. I denna uppställning:

Generatorn $G$ och diskriminatorn $D$ är konkurrerande spelare;
$D$ syftar till att maximera sin förmåga att särskilja verkliga från genererade data;
$G$ syftar till att minimera $D$ :s förmåga att upptäcka dess falska data.

Denna dynamik definierar ett nollsummespel, där den enes vinst är den andres förlust. Optimeringen definieras som:

\underset{G}{\min} \, \underset{D}{\max} \, V(D, G) = \mathbb{E}_{\mathbf{x} \sim p_{x}}[\log D(\mathbf{x})] + \mathbb{E}_{\mathbf{z} \sim p_z}[\log(1 - D(G(\mathbf{z})))]

Generatorn försöker lura diskriminatorn genom att generera prover $G(z)$ som är så nära verkliga data som möjligt.

Förlustfunktioner

Även om det ursprungliga GAN-målet definierar ett minimax-spel, används i praktiken alternativa förlustfunktioner för att stabilisera träningen.

Icke-mättande generatorförlust:

L_G=-\mathbb{E}_{z \sim p_z}[\log{D(G(z))}]

Detta hjälper generatorn att få starka gradienter även när diskriminatorn presterar bra.

Diskriminatorförlust:

L_D = -\mathbb{E}_{x \sim p_x}[\log{D(x)}] - \mathbb{E}_{z \sim p_z}[\log{(1-D(G(z)))}]

Dessa förluster uppmuntrar generatorn att producera exempel som ökar diskriminatorns osäkerhet och förbättrar konvergensen under träningen.

Viktiga varianter av GAN-arkitekturer

Flera typer av GAN har utvecklats för att hantera specifika begränsningar eller för att förbättra prestandan:

Villkorlig GAN (cGAN)

Användningsområden: klassvillkorlig bildgenerering, bild-till-bild-översättning, text-till-bild-generering.

Deep Convolutional GAN (DCGAN)

Användningsområden: fotorealistisk bildgenerering, inlärning av visuella representationer, oövervakad funktionsinlärning.

Cycle-Consistency Loss säkerställer:

G_{BA}(G_{AB}(x)) \approx x\ \text{och}\ G_{AB}(G_{BA}(y))\approx y

Där:

$G_{AB}$ mappar bilder från domän A till domän B;
$G_{BA}$ mappar från domän B till domän A.
$x \in A, y \in B$ .

Användningsområden: konvertering från foto till konstverk, översättning mellan häst och zebra, röstomvandling mellan talare.

StyleGAN

Anmärkningsvärda innovationer:

Stilblandning, möjliggör kombination av flera latenta koder;
Adaptive Instance Normalization (AdaIN), styr funktionskartor i generatorn;
Progressiv tillväxt, träningen startar på låg upplösning och ökar över tid.

Användningsområden: ultrahögupplöst bildgenerering (t.ex. ansikten), kontroll av visuella attribut, konstgenerering.

Jämförelse: GANs vs VAEs

1. Vilket av följande beskriver bäst komponenterna i en grundläggande GAN-arkitektur?

2. Vad är målet med minimax-spelet i GANs?

3. Vilket av följande påståenden är sant om skillnaden mellan GANs och VAEs?

Vilket av följande beskriver bäst komponenterna i en grundläggande GAN-arkitektur?

Select the correct answer

En encoder och en decoder som tränas oberoende av varandra.

En generator som kodar verklig data och en diskriminator som rekonstruerar den.

En generator som skapar data och en diskriminator som utvärderar dess realism.

En variational encoder och en klassificerande diskriminator.

Vad är målet med minimax-spelet i GANs?

Select the correct answer

Minimera rekonstruktionsfel mellan indata och utdata.

Träna både generator och diskriminator för att maximera samma förlust.

Generatorn minimerar KL-divergens medan diskriminatorn maximerar noggrannhet.

Generatorn försöker lura diskriminatorn medan diskriminatorn försöker upptäcka förfalskningar.

Vilket av följande påståenden är sant om skillnaden mellan GANs och VAEs?

Select the correct answer

GANs modellerar explicit datalikelihood, VAEs gör det inte.

GANs genererar skarpare utdata, men träningen är ofta mindre stabil än VAEs.

VAEs använder adversariell träning för att producera data.

Båda modellerna förlitar sig på diskriminatorns återkoppling för att uppdatera generatorn.

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 2. Kapitel 7