Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Transformatorbasierte Generative Modelle | Theoretische Grundlagen
Generative KI

bookTransformatorbasierte Generative Modelle

Einführung in Transformer und Selbstaufmerksamkeit

Transformer sind eine grundlegende Architektur in der modernen KI, insbesondere im Bereich der Verarbeitung natürlicher Sprache (NLP) und des generativen Modellierens. Erstmals vorgestellt im Paper "Attention is All You Need" (Vaswani et al., 2017), verzichten Transformer auf Rekurrenz zugunsten eines Mechanismus namens Selbstaufmerksamkeit, der es Modellen ermöglicht, alle Teile der Eingabesequenz gleichzeitig zu berücksichtigen.

Selbstaufmerksamkeitsmechanismus

Der Selbstaufmerksamkeitsmechanismus ermöglicht es dem Modell, die Bedeutung verschiedener Token in einer Sequenz relativ zueinander zu gewichten. Dies geschieht mithilfe von drei Matrizen, die aus den Eingabe-Embeddings abgeleitet werden:

  • Query (Q);
  • Key (K);
  • Value (V).

Die Ausgabe der Aufmerksamkeit wird wie folgt berechnet:

Attention(Q,K,V)=softmax(QKTdk)V\text{Attention}(Q, K, V) = \text{softmax} \left( \frac{QK^T}{\sqrt{d_k}} \right)V

Dabei gilt:

  • QQ, KK und VV sind Matrizen, die aus der Eingabe abgeleitet werden.
  • dkd_k ist die Dimension der Schlüssel-Vektoren.
  • softmax\text{softmax} wandelt die Ähnlichkeitswerte in Wahrscheinlichkeiten um.

Dies ermöglicht es jedem Token, auf jedes andere Token zu achten und seine Repräsentation entsprechend anzupassen.

Überblick über die Transformer-Architektur

Das Transformer-Modell besteht aus gestapelten Encoder- und Decoder-Schichten:

  • Encoder wandelt die Eingabe in eine kontextualisierte latente Repräsentation um;
  • Decoder erzeugt Ausgabetoken unter Verwendung der Ausgabe des Encoders und vorheriger Token.

Jede Schicht umfasst:

  • Multi-Head Self-Attention;
  • Feedforward-Neuronale Netze;
  • Schichtnormalisierung (Layer Normalization);
  • Residualverbindungen.

Multi-Head Self-Attention

Anstelle der Berechnung einer einzelnen Attention-Funktion verwendet der Transformer mehrere Attention-Köpfe. Jeder Kopf lernt, sich auf unterschiedliche Teile der Sequenz zu konzentrieren.

Multi-Head(Q,K,V)=Concat(head1,head2,...,headn)W0\text{Multi-Head}(Q, K, V) = \text{Concat}(\text{head}_1, \text{head}_2, ... , \text{head}_n)W^0

Jeder Kopf wird wie folgt berechnet:

headi=Attention(QWiQ,KWiK,VWiV)\text{head}_i = \text{Attention}(QW_i^Q, KW_i^K, VW_i^V)

Dabei gilt:

  • WiQ,WiK,WiVW_i^Q, W_i^K, W_i^V sind Projektionsmatrizen für Queries, Keys und Values;
  • W0W^0 projiziert die zusammengefügten Köpfe zurück auf die ursprüngliche Dimension.

Feedforward-Neuronale Netze

Jeder Transformer-Block enthält ein positionsweises Feedforward-Netzwerk, das unabhängig auf jede Position angewendet wird:

FFN(x)=ReLU(xW1+b1)W2+b2\text{FFN}(x) = \text{ReLU}(x W_1 + b_1)W_2 + b_2
  • Besteht aus zwei linearen Schichten mit einer Nichtlinearität (z. B. ReLU) dazwischen;
  • Wendet die gleiche Transformation auf alle Positionen an.

Schichtnormalisierung

Die Schichtnormalisierung normalisiert den Input über die Merkmale (Kanäle) hinweg anstelle des Batches. Sie stabilisiert das Training und verbessert die Konvergenz:

LayerNorm(x)=xμσγ+β\text{LayerNorm}(x) = \frac{x - \mu}{\sigma} \cdot \gamma + \beta

Dabei gilt:

  • μ\mu ist der Mittelwert der Merkmale;
  • σ\sigma ist die Standardabweichung;
  • γ\gamma und β\beta sind lernbare Parameter.

Residualverbindungen

Residualverbindungen addieren den Input jeder Unterschicht zu deren Output:

Output=Layer(x)+x\text{Output} = \text{Layer}(x) + x
  • Unterstützt den Gradientenfluss und ermöglicht das Training tieferer Modelle;
  • Wird sowohl um die Self-Attention- als auch die Feedforward-Schichten verwendet.

In Decoder-only-Modellen (wie GPT) wird nur der Decoder mit kausaler (maskierter) Self-Attention verwendet.

Generative Pre-trained Transformers (GPT)

GPT-Modelle sind ausschließlich Decoder-basierte Transformer, die darauf trainiert werden, das nächste Token in einer autoregressiven Weise vorherzusagen:

P(x1,x2,...,xn)=t=1nP(xtx<t)P(x_1,x_2,...,x_n)=\prod_{t=1}^n{P(x_t|x_{<t})}

Wesentliche Merkmale:

  • Training auf groß angelegten Textdatensätzen;
  • Fähigkeit zur Erzeugung kohärenter und vielfältiger Texte;
  • Weit verbreitet in Anwendungen wie Chatbots und Code-Generierung.

BERT und Maskiertes Sprachmodellieren

BERT (Bidirectional Encoder Representations from Transformers) verwendet ausschließlich den Encoder. Das Training erfolgt mit maskiertem Sprachmodellieren (MLM):

  • Zufällige Tokens werden durch ein [MASK] ersetzt;
  • Das Modell sagt das ursprüngliche Token anhand des vollständigen Kontexts voraus.
P(xix1,...,xi1,[MASK],xi+1,...,xn)P(x_i | x_1, ..., x_{i-1}, [\text{MASK}], x_{i+1}, ..., x_n)

Dadurch eignet sich BERT besonders für Aufgaben wie Klassifikation, Fragebeantwortung und semantische Ähnlichkeit.

Transformer und LLMs

Transformer bilden das Fundament von Large Language Models (LLMs) wie GPT-3, GPT-4, PaLM, LLaMA und Claude.

LLMs nutzen große Datensätze und Hunderte von Milliarden Parametern, wodurch sie in der Lage sind:

  • Menschliche Sprache zu verstehen und zu generieren;
  • Übersetzung, Zusammenfassung, Fragebeantwortung und logisches Schließen durchzuführen;
  • Chatbots, Dokumentenanalyse und Coding-Assistenten zu unterstützen.

Die Skalierbarkeit von Transformern und ihre Fähigkeit, langfristige Abhängigkeiten zu modellieren, machen sie ideal für diese Modelle.

1. Was ist die wichtigste Innovation, die durch Transformer eingeführt wurde?

2. Wodurch unterscheidet sich BERT von GPT?

3. Warum sind Transformer ideal für LLMs?

question mark

Was ist die wichtigste Innovation, die durch Transformer eingeführt wurde?

Select the correct answer

question mark

Wodurch unterscheidet sich BERT von GPT?

Select the correct answer

question mark

Warum sind Transformer ideal für LLMs?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 2. Kapitel 8

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Suggested prompts:

Can you explain how self-attention works in more detail?

What is the difference between encoder and decoder in transformers?

How does multi-head attention improve model performance?

Awesome!

Completion rate improved to 4.76

bookTransformatorbasierte Generative Modelle

Swipe um das Menü anzuzeigen

Einführung in Transformer und Selbstaufmerksamkeit

Transformer sind eine grundlegende Architektur in der modernen KI, insbesondere im Bereich der Verarbeitung natürlicher Sprache (NLP) und des generativen Modellierens. Erstmals vorgestellt im Paper "Attention is All You Need" (Vaswani et al., 2017), verzichten Transformer auf Rekurrenz zugunsten eines Mechanismus namens Selbstaufmerksamkeit, der es Modellen ermöglicht, alle Teile der Eingabesequenz gleichzeitig zu berücksichtigen.

Selbstaufmerksamkeitsmechanismus

Der Selbstaufmerksamkeitsmechanismus ermöglicht es dem Modell, die Bedeutung verschiedener Token in einer Sequenz relativ zueinander zu gewichten. Dies geschieht mithilfe von drei Matrizen, die aus den Eingabe-Embeddings abgeleitet werden:

  • Query (Q);
  • Key (K);
  • Value (V).

Die Ausgabe der Aufmerksamkeit wird wie folgt berechnet:

Attention(Q,K,V)=softmax(QKTdk)V\text{Attention}(Q, K, V) = \text{softmax} \left( \frac{QK^T}{\sqrt{d_k}} \right)V

Dabei gilt:

  • QQ, KK und VV sind Matrizen, die aus der Eingabe abgeleitet werden.
  • dkd_k ist die Dimension der Schlüssel-Vektoren.
  • softmax\text{softmax} wandelt die Ähnlichkeitswerte in Wahrscheinlichkeiten um.

Dies ermöglicht es jedem Token, auf jedes andere Token zu achten und seine Repräsentation entsprechend anzupassen.

Überblick über die Transformer-Architektur

Das Transformer-Modell besteht aus gestapelten Encoder- und Decoder-Schichten:

  • Encoder wandelt die Eingabe in eine kontextualisierte latente Repräsentation um;
  • Decoder erzeugt Ausgabetoken unter Verwendung der Ausgabe des Encoders und vorheriger Token.

Jede Schicht umfasst:

  • Multi-Head Self-Attention;
  • Feedforward-Neuronale Netze;
  • Schichtnormalisierung (Layer Normalization);
  • Residualverbindungen.

Multi-Head Self-Attention

Anstelle der Berechnung einer einzelnen Attention-Funktion verwendet der Transformer mehrere Attention-Köpfe. Jeder Kopf lernt, sich auf unterschiedliche Teile der Sequenz zu konzentrieren.

Multi-Head(Q,K,V)=Concat(head1,head2,...,headn)W0\text{Multi-Head}(Q, K, V) = \text{Concat}(\text{head}_1, \text{head}_2, ... , \text{head}_n)W^0

Jeder Kopf wird wie folgt berechnet:

headi=Attention(QWiQ,KWiK,VWiV)\text{head}_i = \text{Attention}(QW_i^Q, KW_i^K, VW_i^V)

Dabei gilt:

  • WiQ,WiK,WiVW_i^Q, W_i^K, W_i^V sind Projektionsmatrizen für Queries, Keys und Values;
  • W0W^0 projiziert die zusammengefügten Köpfe zurück auf die ursprüngliche Dimension.

Feedforward-Neuronale Netze

Jeder Transformer-Block enthält ein positionsweises Feedforward-Netzwerk, das unabhängig auf jede Position angewendet wird:

FFN(x)=ReLU(xW1+b1)W2+b2\text{FFN}(x) = \text{ReLU}(x W_1 + b_1)W_2 + b_2
  • Besteht aus zwei linearen Schichten mit einer Nichtlinearität (z. B. ReLU) dazwischen;
  • Wendet die gleiche Transformation auf alle Positionen an.

Schichtnormalisierung

Die Schichtnormalisierung normalisiert den Input über die Merkmale (Kanäle) hinweg anstelle des Batches. Sie stabilisiert das Training und verbessert die Konvergenz:

LayerNorm(x)=xμσγ+β\text{LayerNorm}(x) = \frac{x - \mu}{\sigma} \cdot \gamma + \beta

Dabei gilt:

  • μ\mu ist der Mittelwert der Merkmale;
  • σ\sigma ist die Standardabweichung;
  • γ\gamma und β\beta sind lernbare Parameter.

Residualverbindungen

Residualverbindungen addieren den Input jeder Unterschicht zu deren Output:

Output=Layer(x)+x\text{Output} = \text{Layer}(x) + x
  • Unterstützt den Gradientenfluss und ermöglicht das Training tieferer Modelle;
  • Wird sowohl um die Self-Attention- als auch die Feedforward-Schichten verwendet.

In Decoder-only-Modellen (wie GPT) wird nur der Decoder mit kausaler (maskierter) Self-Attention verwendet.

Generative Pre-trained Transformers (GPT)

GPT-Modelle sind ausschließlich Decoder-basierte Transformer, die darauf trainiert werden, das nächste Token in einer autoregressiven Weise vorherzusagen:

P(x1,x2,...,xn)=t=1nP(xtx<t)P(x_1,x_2,...,x_n)=\prod_{t=1}^n{P(x_t|x_{<t})}

Wesentliche Merkmale:

  • Training auf groß angelegten Textdatensätzen;
  • Fähigkeit zur Erzeugung kohärenter und vielfältiger Texte;
  • Weit verbreitet in Anwendungen wie Chatbots und Code-Generierung.

BERT und Maskiertes Sprachmodellieren

BERT (Bidirectional Encoder Representations from Transformers) verwendet ausschließlich den Encoder. Das Training erfolgt mit maskiertem Sprachmodellieren (MLM):

  • Zufällige Tokens werden durch ein [MASK] ersetzt;
  • Das Modell sagt das ursprüngliche Token anhand des vollständigen Kontexts voraus.
P(xix1,...,xi1,[MASK],xi+1,...,xn)P(x_i | x_1, ..., x_{i-1}, [\text{MASK}], x_{i+1}, ..., x_n)

Dadurch eignet sich BERT besonders für Aufgaben wie Klassifikation, Fragebeantwortung und semantische Ähnlichkeit.

Transformer und LLMs

Transformer bilden das Fundament von Large Language Models (LLMs) wie GPT-3, GPT-4, PaLM, LLaMA und Claude.

LLMs nutzen große Datensätze und Hunderte von Milliarden Parametern, wodurch sie in der Lage sind:

  • Menschliche Sprache zu verstehen und zu generieren;
  • Übersetzung, Zusammenfassung, Fragebeantwortung und logisches Schließen durchzuführen;
  • Chatbots, Dokumentenanalyse und Coding-Assistenten zu unterstützen.

Die Skalierbarkeit von Transformern und ihre Fähigkeit, langfristige Abhängigkeiten zu modellieren, machen sie ideal für diese Modelle.

1. Was ist die wichtigste Innovation, die durch Transformer eingeführt wurde?

2. Wodurch unterscheidet sich BERT von GPT?

3. Warum sind Transformer ideal für LLMs?

question mark

Was ist die wichtigste Innovation, die durch Transformer eingeführt wurde?

Select the correct answer

question mark

Wodurch unterscheidet sich BERT von GPT?

Select the correct answer

question mark

Warum sind Transformer ideal für LLMs?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 2. Kapitel 8
some-alt