Transformatorbasierte Generative Modelle

Einführung in Transformer und Selbstaufmerksamkeit

Transformer sind eine grundlegende Architektur in der modernen KI, insbesondere im Bereich der Verarbeitung natürlicher Sprache (NLP) und des generativen Modellierens. Erstmals vorgestellt im Paper "Attention is All You Need" (Vaswani et al., 2017), verzichten Transformer auf Rekurrenz zugunsten eines Mechanismus namens Selbstaufmerksamkeit, der es Modellen ermöglicht, alle Teile der Eingabesequenz gleichzeitig zu berücksichtigen.

Selbstaufmerksamkeitsmechanismus

Der Selbstaufmerksamkeitsmechanismus ermöglicht es dem Modell, die Bedeutung verschiedener Token in einer Sequenz relativ zueinander zu gewichten. Dies geschieht mithilfe von drei Matrizen, die aus den Eingabe-Embeddings abgeleitet werden:

Query (Q);
Key (K);
Value (V).

Die Ausgabe der Aufmerksamkeit wird wie folgt berechnet:

\text{Attention}(Q, K, V) = \text{softmax} \left( \frac{QK^T}{\sqrt{d_k}} \right)V

Dabei gilt:

$Q$ , $K$ und $V$ sind Matrizen, die aus der Eingabe abgeleitet werden.
$d_k$ ist die Dimension der Schlüssel-Vektoren.
$\text{softmax}$ wandelt die Ähnlichkeitswerte in Wahrscheinlichkeiten um.

Dies ermöglicht es jedem Token, auf jedes andere Token zu achten und seine Repräsentation entsprechend anzupassen.

Überblick über die Transformer-Architektur

Das Transformer-Modell besteht aus gestapelten Encoder- und Decoder-Schichten:

Encoder wandelt die Eingabe in eine kontextualisierte latente Repräsentation um;
Decoder erzeugt Ausgabetoken unter Verwendung der Ausgabe des Encoders und vorheriger Token.

Jede Schicht umfasst:

Multi-Head Self-Attention;
Feedforward-Neuronale Netze;
Schichtnormalisierung (Layer Normalization);
Residualverbindungen.

Multi-Head Self-Attention

Anstelle der Berechnung einer einzelnen Attention-Funktion verwendet der Transformer mehrere Attention-Köpfe. Jeder Kopf lernt, sich auf unterschiedliche Teile der Sequenz zu konzentrieren.

\text{Multi-Head}(Q, K, V) = \text{Concat}(\text{head}_1, \text{head}_2, ... , \text{head}_n)W^0

Jeder Kopf wird wie folgt berechnet:

\text{head}_i = \text{Attention}(QW_i^Q, KW_i^K, VW_i^V)

Dabei gilt:

$W_i^Q, W_i^K, W_i^V$ sind Projektionsmatrizen für Queries, Keys und Values;
$W^0$ projiziert die zusammengefügten Köpfe zurück auf die ursprüngliche Dimension.

Feedforward-Neuronale Netze

Jeder Transformer-Block enthält ein positionsweises Feedforward-Netzwerk, das unabhängig auf jede Position angewendet wird:

\text{FFN}(x) = \text{ReLU}(x W_1 + b_1)W_2 + b_2

Besteht aus zwei linearen Schichten mit einer Nichtlinearität (z. B. ReLU) dazwischen;
Wendet die gleiche Transformation auf alle Positionen an.

Schichtnormalisierung

Die Schichtnormalisierung normalisiert den Input über die Merkmale (Kanäle) hinweg anstelle des Batches. Sie stabilisiert das Training und verbessert die Konvergenz:

\text{LayerNorm}(x) = \frac{x - \mu}{\sigma} \cdot \gamma + \beta

Dabei gilt:

$\mu$ ist der Mittelwert der Merkmale;
$\sigma$ ist die Standardabweichung;
$\gamma$ und $\beta$ sind lernbare Parameter.

Residualverbindungen

Residualverbindungen addieren den Input jeder Unterschicht zu deren Output:

\text{Output} = \text{Layer}(x) + x

Unterstützt den Gradientenfluss und ermöglicht das Training tieferer Modelle;
Wird sowohl um die Self-Attention- als auch die Feedforward-Schichten verwendet.

In Decoder-only-Modellen (wie GPT) wird nur der Decoder mit kausaler (maskierter) Self-Attention verwendet.

Generative Pre-trained Transformers (GPT)

GPT-Modelle sind ausschließlich Decoder-basierte Transformer, die darauf trainiert werden, das nächste Token in einer autoregressiven Weise vorherzusagen:

P(x_1,x_2,...,x_n)=\prod_{t=1}^n{P(x_t|x_{<t})}

Wesentliche Merkmale:

Training auf groß angelegten Textdatensätzen;
Fähigkeit zur Erzeugung kohärenter und vielfältiger Texte;
Weit verbreitet in Anwendungen wie Chatbots und Code-Generierung.

BERT und Maskiertes Sprachmodellieren

BERT (Bidirectional Encoder Representations from Transformers) verwendet ausschließlich den Encoder. Das Training erfolgt mit maskiertem Sprachmodellieren (MLM):

Zufällige Tokens werden durch ein [MASK] ersetzt;
Das Modell sagt das ursprüngliche Token anhand des vollständigen Kontexts voraus.

P(x_i | x_1, ..., x_{i-1}, [\text{MASK}], x_{i+1}, ..., x_n)

Dadurch eignet sich BERT besonders für Aufgaben wie Klassifikation, Fragebeantwortung und semantische Ähnlichkeit.

Transformer und LLMs

Transformer bilden das Fundament von Large Language Models (LLMs) wie GPT-3, GPT-4, PaLM, LLaMA und Claude.

LLMs nutzen große Datensätze und Hunderte von Milliarden Parametern, wodurch sie in der Lage sind:

Menschliche Sprache zu verstehen und zu generieren;
Übersetzung, Zusammenfassung, Fragebeantwortung und logisches Schließen durchzuführen;
Chatbots, Dokumentenanalyse und Coding-Assistenten zu unterstützen.

Die Skalierbarkeit von Transformern und ihre Fähigkeit, langfristige Abhängigkeiten zu modellieren, machen sie ideal für diese Modelle.

1. Was ist die wichtigste Innovation, die durch Transformer eingeführt wurde?

2. Wodurch unterscheidet sich BERT von GPT?

3. Warum sind Transformer ideal für LLMs?

Was ist die wichtigste Innovation, die durch Transformer eingeführt wurde?

Select the correct answer

Rekurrente Verbindungen

Selbstaufmerksamkeit für Sequenzmodellierung

Kontextfenster mit Faltung

Speicherzellen wie bei LSTM

Wodurch unterscheidet sich BERT von GPT?

Select the correct answer

GPT verwendet Maskierung, BERT nicht.

BERT ist nur Decoder, GPT ist nur Encoder.

BERT ist bidirektional und verwendet Maskierung.

GPT generiert Tokens rückwärts.

Warum sind Transformer ideal für LLMs?

Select the correct answer

Einfach zu implementieren

Nur feste Eingabegröße

Skalierbar und modellieren langfristige Abhängigkeiten

Benötigen weniger Trainingsdaten

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 2. Kapitel 8

Fragen Sie AI

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Suggested prompts:

Can you explain how self-attention works in more detail?

What is the difference between encoder and decoder in transformers?

How does multi-head attention improve model performance?

Awesome!

Completion rate improved to 4.76

Transformatorbasierte Generative Modelle

Swipe um das Menü anzuzeigen

Einführung in Transformer und Selbstaufmerksamkeit

Selbstaufmerksamkeitsmechanismus

Query (Q);
Key (K);
Value (V).

Die Ausgabe der Aufmerksamkeit wird wie folgt berechnet:

\text{Attention}(Q, K, V) = \text{softmax} \left( \frac{QK^T}{\sqrt{d_k}} \right)V

Dabei gilt:

$Q$ , $K$ und $V$ sind Matrizen, die aus der Eingabe abgeleitet werden.
$d_k$ ist die Dimension der Schlüssel-Vektoren.
$\text{softmax}$ wandelt die Ähnlichkeitswerte in Wahrscheinlichkeiten um.

Dies ermöglicht es jedem Token, auf jedes andere Token zu achten und seine Repräsentation entsprechend anzupassen.

Überblick über die Transformer-Architektur

Das Transformer-Modell besteht aus gestapelten Encoder- und Decoder-Schichten:

Encoder wandelt die Eingabe in eine kontextualisierte latente Repräsentation um;
Decoder erzeugt Ausgabetoken unter Verwendung der Ausgabe des Encoders und vorheriger Token.

Jede Schicht umfasst:

Multi-Head Self-Attention;
Feedforward-Neuronale Netze;
Schichtnormalisierung (Layer Normalization);
Residualverbindungen.

Multi-Head Self-Attention

Anstelle der Berechnung einer einzelnen Attention-Funktion verwendet der Transformer mehrere Attention-Köpfe. Jeder Kopf lernt, sich auf unterschiedliche Teile der Sequenz zu konzentrieren.

\text{Multi-Head}(Q, K, V) = \text{Concat}(\text{head}_1, \text{head}_2, ... , \text{head}_n)W^0

Jeder Kopf wird wie folgt berechnet:

\text{head}_i = \text{Attention}(QW_i^Q, KW_i^K, VW_i^V)

Dabei gilt:

$W_i^Q, W_i^K, W_i^V$ sind Projektionsmatrizen für Queries, Keys und Values;
$W^0$ projiziert die zusammengefügten Köpfe zurück auf die ursprüngliche Dimension.

Feedforward-Neuronale Netze

Jeder Transformer-Block enthält ein positionsweises Feedforward-Netzwerk, das unabhängig auf jede Position angewendet wird:

\text{FFN}(x) = \text{ReLU}(x W_1 + b_1)W_2 + b_2

Besteht aus zwei linearen Schichten mit einer Nichtlinearität (z. B. ReLU) dazwischen;
Wendet die gleiche Transformation auf alle Positionen an.

Schichtnormalisierung

Die Schichtnormalisierung normalisiert den Input über die Merkmale (Kanäle) hinweg anstelle des Batches. Sie stabilisiert das Training und verbessert die Konvergenz:

\text{LayerNorm}(x) = \frac{x - \mu}{\sigma} \cdot \gamma + \beta

Dabei gilt:

$\mu$ ist der Mittelwert der Merkmale;
$\sigma$ ist die Standardabweichung;
$\gamma$ und $\beta$ sind lernbare Parameter.

Residualverbindungen

Residualverbindungen addieren den Input jeder Unterschicht zu deren Output:

\text{Output} = \text{Layer}(x) + x

Unterstützt den Gradientenfluss und ermöglicht das Training tieferer Modelle;
Wird sowohl um die Self-Attention- als auch die Feedforward-Schichten verwendet.

In Decoder-only-Modellen (wie GPT) wird nur der Decoder mit kausaler (maskierter) Self-Attention verwendet.

Generative Pre-trained Transformers (GPT)

GPT-Modelle sind ausschließlich Decoder-basierte Transformer, die darauf trainiert werden, das nächste Token in einer autoregressiven Weise vorherzusagen:

P(x_1,x_2,...,x_n)=\prod_{t=1}^n{P(x_t|x_{<t})}

Wesentliche Merkmale:

Training auf groß angelegten Textdatensätzen;
Fähigkeit zur Erzeugung kohärenter und vielfältiger Texte;
Weit verbreitet in Anwendungen wie Chatbots und Code-Generierung.

BERT und Maskiertes Sprachmodellieren

BERT (Bidirectional Encoder Representations from Transformers) verwendet ausschließlich den Encoder. Das Training erfolgt mit maskiertem Sprachmodellieren (MLM):

Zufällige Tokens werden durch ein [MASK] ersetzt;
Das Modell sagt das ursprüngliche Token anhand des vollständigen Kontexts voraus.

P(x_i | x_1, ..., x_{i-1}, [\text{MASK}], x_{i+1}, ..., x_n)

Dadurch eignet sich BERT besonders für Aufgaben wie Klassifikation, Fragebeantwortung und semantische Ähnlichkeit.

Transformer und LLMs

Transformer bilden das Fundament von Large Language Models (LLMs) wie GPT-3, GPT-4, PaLM, LLaMA und Claude.

LLMs nutzen große Datensätze und Hunderte von Milliarden Parametern, wodurch sie in der Lage sind:

Menschliche Sprache zu verstehen und zu generieren;
Übersetzung, Zusammenfassung, Fragebeantwortung und logisches Schließen durchzuführen;
Chatbots, Dokumentenanalyse und Coding-Assistenten zu unterstützen.

Die Skalierbarkeit von Transformern und ihre Fähigkeit, langfristige Abhängigkeiten zu modellieren, machen sie ideal für diese Modelle.

1. Was ist die wichtigste Innovation, die durch Transformer eingeführt wurde?

2. Wodurch unterscheidet sich BERT von GPT?

3. Warum sind Transformer ideal für LLMs?

Was ist die wichtigste Innovation, die durch Transformer eingeführt wurde?

Select the correct answer

Rekurrente Verbindungen

Selbstaufmerksamkeit für Sequenzmodellierung

Kontextfenster mit Faltung

Speicherzellen wie bei LSTM

Wodurch unterscheidet sich BERT von GPT?

Select the correct answer

GPT verwendet Maskierung, BERT nicht.

BERT ist nur Decoder, GPT ist nur Encoder.

BERT ist bidirektional und verwendet Maskierung.

GPT generiert Tokens rückwärts.

Warum sind Transformer ideal für LLMs?

Select the correct answer

Einfach zu implementieren

Nur feste Eingabegröße

Skalierbar und modellieren langfristige Abhängigkeiten

Benötigen weniger Trainingsdaten

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 2. Kapitel 8