Lernen Transformatorbasierte Generative Modelle

Swipe um das Menü anzuzeigen

Einführung in Transformer und Selbst-Attention

Transformer sind eine grundlegende Architektur in der modernen KI, insbesondere im Bereich der Verarbeitung natürlicher Sprache (NLP) und des generativen Modellierens. Erstmals vorgestellt im Paper "Attention is All You Need" (Vaswani et al., 2017), verzichten Transformer auf Rekurrenz zugunsten eines Mechanismus namens Selbst-Attention, der es Modellen ermöglicht, alle Teile der Eingabesequenz gleichzeitig zu berücksichtigen.

Selbst-Attention-Mechanismus

Der Selbst-Attention-Mechanismus ermöglicht es dem Modell, die Bedeutung verschiedener Token in einer Sequenz relativ zueinander zu gewichten. Dies geschieht mithilfe von drei Matrizen, die aus den Eingabe-Embeddings abgeleitet werden:

Query (Q);
Key (K);
Value (V).

Die Attention-Ausgabe wird wie folgt berechnet:

\text{Attention}(Q, K, V) = \text{softmax} \left( \frac{QK^T}{\sqrt{d_k}} \right)V

Dabei gilt:

$Q$ , $K$ und $V$ sind Matrizen, die aus der Eingabe abgeleitet werden.
$d_k$ ist die Dimension der Key-Vektoren.
$\text{softmax}$ wandelt die Ähnlichkeitswerte in Wahrscheinlichkeiten um.

Dies ermöglicht es jedem Token, auf jedes andere Token zu achten und seine Repräsentation entsprechend anzupassen.

Überblick über die Transformer-Architektur

Das Transformer-Modell besteht aus gestapelten Encoder- und Decoder-Schichten:

Encoder wandelt Eingaben in eine kontextualisierte latente Repräsentation um;
Decoder generiert Ausgabetoken unter Verwendung der Encoder-Ausgabe und vorheriger Token.

Jede Schicht umfasst:

Multi-Head Self-Attention;
Feedforward-Neuronale Netze;
Layer-Normalisierung;
Residual-Verbindungen.

Multi-Head Self-Attention

Anstelle einer einzelnen Attention-Funktion verwendet der Transformer mehrere Attention-Köpfe. Jeder Kopf lernt, sich auf unterschiedliche Teile der Sequenz zu konzentrieren.

\text{Multi-Head}(Q, K, V) = \text{Concat}(\text{head}_1, \text{head}_2, ... , \text{head}_n)W^0

Jeder Kopf wird berechnet als:

\text{head}_i = \text{Attention}(QW_i^Q, KW_i^K, VW_i^V)

Dabei gilt:

$W_i^Q, W_i^K, W_i^V$ sind Projektionsmatrizen für Queries, Keys und Values;
$W^0$ projiziert die zusammengefügten Köpfe zurück auf die ursprüngliche Dimension.

Feedforward-Neuronale Netze

Jeder Transformer-Block enthält ein positionsweises Feedforward-Netzwerk, das unabhängig auf jede Position angewendet wird:

\text{FFN}(x) = \text{ReLU}(x W_1 + b_1)W_2 + b_2

Besteht aus zwei linearen Schichten mit einer Nichtlinearität (z. B. ReLU) dazwischen;
Wendet die gleiche Transformation auf alle Positionen an.

Schichtnormalisierung

Die Schichtnormalisierung normalisiert den Input über die Merkmale (Kanäle) anstelle des Batches. Sie stabilisiert das Training und verbessert die Konvergenz:

\text{LayerNorm}(x) = \frac{x - \mu}{\sigma} \cdot \gamma + \beta

Dabei gilt:

$\mu$ ist der Mittelwert der Merkmale;
$\sigma$ ist die Standardabweichung;
$\gamma$ und $\beta$ sind lernbare Parameter.

Residualverbindungen

Residualverbindungen addieren den Input jeder Unterschicht zu deren Output:

\text{Output} = \text{Layer}(x) + x

Unterstützt den Gradientenfluss und ermöglicht das Training tieferer Modelle;
Wird sowohl um die Self-Attention- als auch um die Feedforward-Schichten verwendet.

In Decoder-only-Modellen (wie GPT) wird nur der Decoder mit kausaler (maskierter) Self-Attention verwendet.

Generative Pre-trained Transformers (GPT)

GPT-Modelle sind ausschließlich Decoder-basierte Transformer, die darauf trainiert werden, das nächste Token in autoregressiver Weise vorherzusagen:

P(x_1,x_2,...,x_n)=\prod_{t=1}^n{P(x_t|x_{<t})}

Wesentliche Merkmale:

Training auf groß angelegten Textdatensätzen;
Fähigkeit zur Erzeugung kohärenter und vielfältiger Texte;
Weit verbreitet in Anwendungen wie Chatbots und Code-Generierung.

BERT und Maskiertes Sprachmodellieren

BERT (Bidirectional Encoder Representations from Transformers) verwendet ausschließlich den Encoder. Das Training erfolgt mittels maskiertem Sprachmodellieren (MLM):

Zufällige Tokens werden durch ein [MASK] ersetzt;
Das Modell sagt das ursprüngliche Token anhand des vollständigen Kontexts voraus.

P(x_i | x_1, ..., x_{i-1}, [\text{MASK}], x_{i+1}, ..., x_n)

Dadurch eignet sich BERT besonders für Aufgaben wie Klassifikation, Fragebeantwortung und semantische Ähnlichkeit.

Transformer und LLMs

Transformer bilden das Rückgrat von Large Language Models (LLMs) wie GPT-3, GPT-4, PaLM, LLaMA und Claude.

LLMs nutzen große Datensätze und Hunderte Milliarden von Parametern, wodurch sie in der Lage sind:

Menschliche Sprache zu verstehen und zu generieren;
Übersetzung, Zusammenfassung, Fragebeantwortung und logisches Schließen durchzuführen;
Chatbots, Dokumentenanalyse und Coding-Assistenten zu unterstützen.

Die Skalierbarkeit von Transformern und ihre Fähigkeit, langfristige Abhängigkeiten zu modellieren, machen sie ideal für diese Modelle.

War alles klar?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 9

Fragen Sie AI

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Abschnitt 1. Kapitel 9

Transformatorbasierte Generative Modelle

Einführung in Transformer und Selbst-Attention

Selbst-Attention-Mechanismus

Überblick über die Transformer-Architektur

Multi-Head Self-Attention

Feedforward-Neuronale Netze

Schichtnormalisierung

Residualverbindungen

Generative Pre-trained Transformers (GPT)

BERT und Maskiertes Sprachmodellieren

Transformer und LLMs

1. Was ist die wichtigste Innovation, die durch Transformer eingeführt wurde?

2. Wodurch unterscheidet sich BERT von GPT?

3. Warum sind Transformer ideal für LLMs?