Leer Variationale Auto-Encoders (VAEs)

Veeg om het menu te tonen

Auto-encoders en Variational Autoencoders

Auto-encoders zijn neurale netwerken die ontworpen zijn om efficiënte representaties van data te leren via encoder- en decoderprocessen. Een standaard auto-encoder bestaat uit twee componenten:

Encoder: comprimeert invoergegevens tot een lager-dimensionale representatie.
Decoder: reconstrueert de oorspronkelijke gegevens vanuit de gecomprimeerde representatie.

Traditionele auto-encoders leren deterministische mappings, wat betekent dat zij data comprimeren tot een vaste latente ruimte. Zij hebben echter moeite met het genereren van diverse uitkomsten, omdat hun latente ruimte structuur en vloeiendheid mist.

Verschillen tussen standaard auto-encoders en VAEs

Variational Autoencoders (VAEs) verbeteren standaard auto-encoders door het introduceren van een probabilistische latente ruimte, waardoor gestructureerde en betekenisvolle generatie van nieuwe data mogelijk wordt.

Encoder-decoderstructuur en representatie van de latente ruimte

VAEs bestaan uit twee hoofdcomponenten:

Encoder: Zet de invoergegevens om naar een kansverdeling over een lager-dimensionale latente ruimte $z$ .
Decoder: Monstert uit de latente ruimte en reconstrueert de invoergegevens.

Wiskundige formulering:

De encoder produceert een gemiddelde en variantie voor de latente ruimte:

\mu = f_\mu (x; \theta)

\sigma^2 = f_\sigma (x; \theta)

waarbij:

$\mu$ het gemiddelde van de latente ruimtedistributie voorstelt;
$\sigma^2$ de variantie voorstelt;
$f_\mu$ en $f_\sigma$ functies zijn geparametriseerd door $\theta$ , doorgaans geïmplementeerd als neurale netwerken.

In plaats van deze parameters direct aan de decoder door te geven, wordt er een steekproef genomen uit een Gaussische verdeling met behulp van de reparameterisatietrick:

z = \mu + \sigma \odot \epsilon,

\epsilon \sim \mathcal{N}(0, I)

waarbij:

$\odot$ elementgewijze vermenigvuldiging voorstelt;
$\epsilon$ een willekeurige variabele is getrokken uit een standaardnormale verdeling.

Deze truc maakt het mogelijk om gradiënten door het steekproefproces te laten propageren, waardoor backpropagation mogelijk wordt. Zonder deze truc zou de stochastische steekproefbewerking gradiënt-gebaseerd leren onmogelijk maken.

De decoder reconstrueert de invoer vanuit $z$ door een functie $g(z; \phi)$ te leren, die de parameters van de dataverdeling oplevert. Het decodernetwerk wordt getraind om het verschil tussen de gereconstrueerde en originele data te minimaliseren, wat zorgt voor hoogwaardige reconstructies.

Probabilistisch modelleren in VAEs

VAEs zijn gebaseerd op Bayesiaanse inferentie, waarmee ze de relatie tussen geobserveerde data $x$ en latente variabelen $z$ modelleren met behulp van kansverdelingen. Het fundamentele principe is gebaseerd op de stelling van Bayes:

P(z|x)= \frac{P(x|z)P(z)}{P(x)}

Omdat het berekenen van $p(x)$ integratie over alle mogelijke latente variabelen vereist, wat niet uitvoerbaar is, benaderen VAEs de posterior $p(z∣x)$ met een eenvoudigere functie $q(z∣x)$ , waardoor efficiënte inferentie mogelijk wordt.

Evidence Lower Bound (ELBO)

In plaats van het maximaliseren van de niet-uitvoerbare marginale waarschijnlijkheid $p(x)$ , maximaliseren VAEs de ondergrens hiervan, de Evidence Lower Bound (ELBO):

\log{p(x)} \ge \mathbb{E}_{q(z|x)} \left[ \log{p(x|z)} \right] - D_{KL} (q (z | x) || p(z))

waarbij:

De eerste term, $\mathbb{E}_{q(z|x)}[\log{p(x|z)}]$ , is het reconstructieverlies, dat ervoor zorgt dat de output lijkt op de input;
De tweede term, $D_{KL}(q(z|x)\ ||\ p(z))$ , is de KL-divergentie, die de latente ruimte regulariseert door ervoor te zorgen dat $q(z∣x)$ dicht bij de prior $p(z)$ blijft.

Door deze twee termen in balans te brengen, bereiken VAEs een afweging tussen nauwkeurige reconstructies en soepele representaties van de latente ruimte.

Toepassingen van VAEs

1. Anomaliedetectie

VAEs kunnen de normale structuur van data leren. Bij het tegenkomen van afwijkende invoer heeft het model moeite om deze te reconstrueren, wat leidt tot hogere reconstructiefouten die gebruikt kunnen worden voor het detecteren van uitschieters.

2. Beeldsynthese

VAEs kunnen nieuwe beelden genereren door te sampelen uit de geleerde latente ruimte. Ze worden veel gebruikt in toepassingen zoals:

Gezichtsgeneratie (bijv. het genereren van nieuwe menselijke gezichten);
Stijltransfer (bijv. het combineren van artistieke stijlen).

3. Tekstgeneratie

VAEs kunnen worden aangepast voor natuurlijke taalverwerking (NLP)-taken, waarbij ze worden gebruikt om diverse en samenhangende tekstreeksen te genereren.

4. Medicijnontdekking

VAEs zijn toegepast in bio-informatica en medicijnontdekking, waar ze moleculaire structuren genereren met gewenste eigenschappen.

Conclusie

Variational Autoencoders zijn een krachtige klasse van generatieve modellen die probabilistische modellering introduceren bij autoencoders. Hun vermogen om diverse en realistische data te genereren heeft ze tot een fundamenteel onderdeel van moderne generatieve AI gemaakt.

In vergelijking met traditionele autoencoders bieden VAEs een gestructureerde latente ruimte, wat de generatieve mogelijkheden verbetert. Naarmate het onderzoek vordert, blijven VAEs een cruciale rol spelen in AI-toepassingen binnen computer vision, NLP en daarbuiten.

1. Wat is het belangrijkste verschil tussen een standaard autoencoder en een variational autoencoder (VAE)?

2. Wat is de rol van de KL-divergentie-term in de VAE-verliesfunctie?

3. Waarom is de reparameterisatietrick noodzakelijk in VAEs?

4. Welke van de volgende beschrijvingen geeft het beste de ELBO (Evidence Lower Bound) in VAEs weer?

5. Welke van de volgende is GEEN veelvoorkomende toepassing van VAEs?

Was alles duidelijk?

Bedankt voor je feedback!

Sectie 1. Hoofdstuk 7

Vraag AI

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Sectie 1. Hoofdstuk 7