Swipe um das Menü anzuzeigen

Autoencoder und Variational Autoencoder

Autoencoder sind neuronale Netzwerke, die darauf ausgelegt sind, effiziente Repräsentationen von Daten durch Kodierungs- und Dekodierungsprozesse zu erlernen. Ein Standard-Autoencoder besteht aus zwei Komponenten:

Encoder: Komprimiert Eingabedaten in eine niedrigdimensionale Repräsentation.
Decoder: Rekonstruiert die Originaldaten aus der komprimierten Repräsentation.

Traditionelle Autoencoder lernen deterministische Abbildungen, das heißt, sie komprimieren Daten in einen festen latenten Raum. Sie haben jedoch Schwierigkeiten, vielfältige Ausgaben zu erzeugen, da ihr latenter Raum keine Struktur und Glattheit aufweist.

Unterschiede zwischen Standard-Autoencodern und VAEs

Variational Autoencoder (VAEs) verbessern Standard-Autoencoder, indem sie einen probabilistischen latenten Raum einführen, der eine strukturierte und sinnvolle Generierung neuer Daten ermöglicht.

Encoder-Decoder-Struktur und latente Raumdarstellung

VAEs bestehen aus zwei Hauptkomponenten:

Encoder: Ordnet die Eingabedaten einer Wahrscheinlichkeitsverteilung über einen niedrigdimensionalen latenten Raum $z$ zu.
Decoder: Entnimmt Stichproben aus dem latenten Raum und rekonstruiert die Eingabedaten.

Mathematische Formulierung:

Der Encoder erzeugt einen Mittelwert und eine Varianz für den latenten Raum:

\mu = f_\mu (x; \theta)

\sigma^2 = f_\sigma (x; \theta)

wobei:

$\mu$ den Mittelwert der Verteilung im latenten Raum darstellt;
$\sigma^2$ die Varianz darstellt;
$f_\mu$ und $f_\sigma$ Funktionen sind, die durch $\theta$ parametrisiert werden, typischerweise als neuronale Netze implementiert.

Anstatt diese Parameter direkt an den Decoder weiterzugeben, wird mithilfe des Reparametrisierungstricks aus einer Gaußschen Verteilung gesampelt:

z = \mu + \sigma \odot \epsilon,

\epsilon \sim \mathcal{N}(0, I)

wobei:

$\odot$ elementweise Multiplikation darstellt;
$\epsilon$ eine Zufallsvariable ist, die aus einer Standardnormalverteilung gezogen wird.

Dieser Trick ermöglicht es, dass Gradienten durch den Sampling-Prozess propagiert werden können, wodurch Backpropagation möglich wird. Ohne diesen Trick würde die stochastische Sampling-Operation das gradientenbasierte Lernen unmöglich machen.

Der Decoder rekonstruiert die Eingabe aus $z$ , indem er eine Funktion $g(z; \phi)$ lernt, die die Parameter der Datenverteilung ausgibt. Das Decoder-Netzwerk wird darauf trainiert, den Unterschied zwischen den rekonstruierten und den Originaldaten zu minimieren, um hochwertige Rekonstruktionen zu gewährleisten.

Probabilistisches Modellieren in VAEs

VAEs basieren auf der Bayesschen Inferenz, die es ihnen ermöglicht, die Beziehung zwischen beobachteten Daten $x$ und latenten Variablen $z$ mithilfe von Wahrscheinlichkeitsverteilungen zu modellieren. Das grundlegende Prinzip basiert auf dem Satz von Bayes:

P(z|x)= \frac{P(x|z)P(z)}{P(x)}

Da die Berechnung von $p(x)$ eine Integration über alle möglichen latenten Variablen erfordert, was unpraktikabel ist, approximieren VAEs das Posterior $p(z∣x)$ mit einer einfacheren Funktion $q(z∣x)$ , was eine effiziente Inferenz ermöglicht.

Evidence Lower Bound (ELBO)

Anstatt die unpraktikable marginale Likelihood $p(x)$ zu maximieren, maximieren VAEs deren untere Schranke, die als Evidence Lower Bound (ELBO) bezeichnet wird:

\log{p(x)} \ge \mathbb{E}_{q(z|x)} \left[ \log{p(x|z)} \right] - D_{KL} (q (z | x) || p(z))

wobei:

Der erste Term, $\mathbb{E}_{q(z|x)}[\log{p(x|z)}]$ , ist der Rekonstruktionsverlust und stellt sicher, dass die Ausgabe dem Eingang ähnelt;
Der zweite Term, $D_{KL}(q(z|x)\ ||\ p(z))$ , ist die KL-Divergenz, die den latenten Raum reguliert, indem sie sicherstellt, dass $q(z∣x)$ nahe an der Priorverteilung $p(z)$ bleibt.

Durch das Ausbalancieren dieser beiden Terme erreichen VAEs einen Kompromiss zwischen präziser Rekonstruktion und glatter Repräsentation des latenten Raums.

Anwendungen von VAEs

1. Anomalieerkennung

VAEs können die normale Struktur von Daten erlernen. Bei anomalen Eingaben fällt es dem Modell schwer, diese zu rekonstruieren, was zu höheren Rekonstruktionsfehlern führt und zur Erkennung von Ausreißern genutzt werden kann.

2. Bildsynthese

VAEs können neue Bilder erzeugen, indem sie aus dem erlernten latenten Raum sampeln. Sie werden häufig in Anwendungen wie:

Gesichtsgenerierung (z. B. Erzeugung neuer menschlicher Gesichter);
Stiltransfer (z. B. Verschmelzung künstlerischer Stile).

3. Textgenerierung

VAEs können für Aufgaben der natürlichen Sprachverarbeitung (NLP) angepasst werden, wo sie zur Erzeugung vielfältiger und kohärenter Textsequenzen eingesetzt werden.

4. Arzneimittelentdeckung

VAEs werden in der Bioinformatik und Arzneimittelentdeckung eingesetzt, wo sie Molekülstrukturen mit gewünschten Eigenschaften generieren.

Fazit

Variational Autoencoders sind eine leistungsstarke Klasse generativer Modelle, die probabilistisches Modellieren in Autoencoder einführen. Ihre Fähigkeit, vielfältige und realistische Daten zu generieren, macht sie zu einem grundlegenden Bestandteil moderner generativer KI.

Im Vergleich zu traditionellen Autoencodern bieten VAEs einen strukturierten latenten Raum und verbessern die generativen Fähigkeiten. Mit dem Fortschritt der Forschung spielen VAEs weiterhin eine entscheidende Rolle in KI-Anwendungen in den Bereichen Computer Vision, NLP und darüber hinaus.

War alles klar?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 7

Fragen Sie AI

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Variationale Autoencoder (VAEs)

Autoencoder und Variational Autoencoder

Encoder: Komprimiert Eingabedaten in eine niedrigdimensionale Repräsentation.
Decoder: Rekonstruiert die Originaldaten aus der komprimierten Repräsentation.

Unterschiede zwischen Standard-Autoencodern und VAEs