Transformer-Baserede Generative Modeller

Introduktion til Transformers og Self-Attention

Transformers udgør en grundlæggende arkitektur inden for moderne AI, især i Natural Language Processing (NLP) og generativ modellering. Først introduceret i artiklen "Attention is All You Need" (Vaswani et al., 2017), fravælger transformers rekurrens til fordel for en mekanisme kaldet self-attention, som gør det muligt for modeller at tage alle dele af inputsekvensen i betragtning på én gang.

Self-Attention-mekanisme

Self-attention-mekanismen gør det muligt for modellen at vægte betydningen af forskellige tokens i en sekvens i forhold til hinanden. Dette udføres ved hjælp af tre matricer, der er afledt af input-embedding:

Query (Q);
Key (K);
Value (V).

Attention-outputtet beregnes som:

\text{Attention}(Q, K, V) = \text{softmax} \left( \frac{QK^T}{\sqrt{d_k}} \right)V

Hvor:

$Q$ , $K$ og $V$ er matricer afledt af input.
$d_k$ er dimensionen af key-vektorerne.
$\text{softmax}$ konverterer lighedsscorer til sandsynligheder.

Dette gør det muligt for hvert token at attendere til alle andre tokens og justere dets repræsentation tilsvarende.

Oversigt over Transformer-arkitektur

Transformer-modellen består af stablede encoder- og decoder-lag:

Encoder omdanner input til en kontekstualiseret latent repræsentation;
Decoder genererer output-tokens ved hjælp af encoderens output og tidligere tokens.

Hvert lag indeholder:

Multi-Head Self-Attention;
Feedforward neurale netværk;
Lag-normalisering;
Residualforbindelser.

Multi-Head Self-Attention

I stedet for at beregne en enkelt opmærksomhedsfunktion anvender transformer-modellen flere opmærksomhedshoveder. Hvert hoved lærer at fokusere på forskellige dele af sekvensen.

\text{Multi-Head}(Q, K, V) = \text{Concat}(\text{head}_1, \text{head}_2, ... , \text{head}_n)W^0

Hvor hvert hoved beregnes som:

\text{head}_i = \text{Attention}(QW_i^Q, KW_i^K, VW_i^V)

Hvor:

$W_i^Q, W_i^K, W_i^V$ er projekteringsmatricer for forespørgsler, nøgler og værdier;
$W^0$ projicerer de sammenkædede hoveder tilbage til den oprindelige dimension.

Fuldstændigt forbundne neurale netværk

Hvert transformer-blok indeholder et positionsvist fuldt forbundet netværk, der anvendes uafhængigt på hver position:

\text{FFN}(x) = \text{ReLU}(x W_1 + b_1)W_2 + b_2

Består af to lineære lag med en ikke-linearitet (f.eks. ReLU) imellem;
Anvender den samme transformation på alle positioner.

Lag-normalisering

Lag-normalisering normaliserer inputtet på tværs af funktionerne (kanaler) i stedet for batch. Dette stabiliserer træningen og forbedrer konvergensen:

\text{LayerNorm}(x) = \frac{x - \mu}{\sigma} \cdot \gamma + \beta

Hvor:

$\mu$ er gennemsnittet af funktionerne;
$\sigma$ er standardafvigelsen;
$\gamma$ og $\beta$ er lærbare parametre.

Residuale forbindelser

Residuale forbindelser lægger inputtet fra hvert underlag til dets output:

\text{Output} = \text{Layer}(x) + x

Dette hjælper med gradientflow og muliggør træning af dybere modeller;
Anvendes omkring både selvopmærksomheds- og fuldt forbundne lag.

I kun-dekoder modeller (som GPT) anvendes kun dekoderen med kausal (maskeret) selvopmærksomhed.

Generative Pre-trained Transformers (GPT)

GPT-modeller er kun-dekoder-transformere trænet til at forudsige det næste token på en autoregressiv måde:

P(x_1,x_2,...,x_n)=\prod_{t=1}^n{P(x_t|x_{<t})}

Nøgleegenskaber:

Trænet på store tekstdatasæt;
Kan generere sammenhængende og varieret tekst;
Udbredt anvendt i applikationer som chatbots og kodegenerering.

BERT og Maskeret Sproglig Modellering

BERT (Bidirectional Encoder Representations from Transformers) anvender kun enkoderen. Den trænes med maskeret sproglig modellering (MLM):

Tilfældige tokens erstattes med en [MASK];
Modellen forudsiger det oprindelige token baseret på fuld kontekst.

P(x_i | x_1, ..., x_{i-1}, [\text{MASK}], x_{i+1}, ..., x_n)

Dette gør BERT velegnet til opgaver som klassifikation, spørgsmål og svar samt semantisk lighed.

Transformere og LLM'er

Transformere udgør grundlaget for Large Language Models (LLM'er) såsom GPT-3, GPT-4, PaLM, LLaMA og Claude.

LLM'er anvender store datasæt og hundredvis af milliarder parametre, hvilket gør det muligt for dem at:

Forstå og generere menneskesprog;
Udføre oversættelse, opsummering, spørgsmål og svar, ræsonnement;
Drive chatbots, dokumentanalysatorer og kodeassistenter.

Transformeres skalerbarhed og evne til at modellere langtrækkende afhængigheder gør dem ideelle til disse modeller.

1. Hvad er den primære innovation, som transformere har introduceret?

2. Hvad adskiller BERT fra GPT?

3. Hvorfor er transformere ideelle til LLM'er?

Hvad er den primære innovation, som transformere har introduceret?

Select the correct answer

Rekurrente forbindelser

Selvopmærksomhed til sekvensmodellering

Konvolutionelle kontekstvinduer

Hukommelsesceller som i LSTM

Hvad adskiller BERT fra GPT?

Select the correct answer

GPT anvender maskering, BERT gør ikke.

BERT er kun dekoder, GPT er kun enkoder.

BERT er bidirektionel og anvender maskering.

GPT genererer tokens baglæns.

Hvorfor er transformere ideelle til LLM'er?

Select the correct answer

Let at implementere

Kun input med fast størrelse

Skalerbare og kan modellere langtrækkende afhængigheder

Kræver mindre træningsdata

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 2. Kapitel 8

Spørg AI

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Suggested prompts:

Can you explain how self-attention works in more detail?

What is the difference between encoder and decoder in transformers?

How does multi-head attention improve model performance?

Awesome!

Completion rate improved to 4.76

Transformer-Baserede Generative Modeller

Stryg for at vise menuen

Introduktion til Transformers og Self-Attention

Self-Attention-mekanisme

Query (Q);
Key (K);
Value (V).

Attention-outputtet beregnes som:

\text{Attention}(Q, K, V) = \text{softmax} \left( \frac{QK^T}{\sqrt{d_k}} \right)V

Hvor:

$Q$ , $K$ og $V$ er matricer afledt af input.
$d_k$ er dimensionen af key-vektorerne.
$\text{softmax}$ konverterer lighedsscorer til sandsynligheder.

Dette gør det muligt for hvert token at attendere til alle andre tokens og justere dets repræsentation tilsvarende.

Oversigt over Transformer-arkitektur

Transformer-modellen består af stablede encoder- og decoder-lag:

Encoder omdanner input til en kontekstualiseret latent repræsentation;
Decoder genererer output-tokens ved hjælp af encoderens output og tidligere tokens.

Hvert lag indeholder:

Multi-Head Self-Attention;
Feedforward neurale netværk;
Lag-normalisering;
Residualforbindelser.

Multi-Head Self-Attention

I stedet for at beregne en enkelt opmærksomhedsfunktion anvender transformer-modellen flere opmærksomhedshoveder. Hvert hoved lærer at fokusere på forskellige dele af sekvensen.

\text{Multi-Head}(Q, K, V) = \text{Concat}(\text{head}_1, \text{head}_2, ... , \text{head}_n)W^0

Hvor hvert hoved beregnes som:

\text{head}_i = \text{Attention}(QW_i^Q, KW_i^K, VW_i^V)

Hvor:

$W_i^Q, W_i^K, W_i^V$ er projekteringsmatricer for forespørgsler, nøgler og værdier;
$W^0$ projicerer de sammenkædede hoveder tilbage til den oprindelige dimension.

Fuldstændigt forbundne neurale netværk

Hvert transformer-blok indeholder et positionsvist fuldt forbundet netværk, der anvendes uafhængigt på hver position:

\text{FFN}(x) = \text{ReLU}(x W_1 + b_1)W_2 + b_2

Består af to lineære lag med en ikke-linearitet (f.eks. ReLU) imellem;
Anvender den samme transformation på alle positioner.

Lag-normalisering

Lag-normalisering normaliserer inputtet på tværs af funktionerne (kanaler) i stedet for batch. Dette stabiliserer træningen og forbedrer konvergensen:

\text{LayerNorm}(x) = \frac{x - \mu}{\sigma} \cdot \gamma + \beta

Hvor:

$\mu$ er gennemsnittet af funktionerne;
$\sigma$ er standardafvigelsen;
$\gamma$ og $\beta$ er lærbare parametre.

Residuale forbindelser

Residuale forbindelser lægger inputtet fra hvert underlag til dets output:

\text{Output} = \text{Layer}(x) + x

Dette hjælper med gradientflow og muliggør træning af dybere modeller;
Anvendes omkring både selvopmærksomheds- og fuldt forbundne lag.

I kun-dekoder modeller (som GPT) anvendes kun dekoderen med kausal (maskeret) selvopmærksomhed.

Generative Pre-trained Transformers (GPT)

GPT-modeller er kun-dekoder-transformere trænet til at forudsige det næste token på en autoregressiv måde:

P(x_1,x_2,...,x_n)=\prod_{t=1}^n{P(x_t|x_{<t})}

Nøgleegenskaber:

Trænet på store tekstdatasæt;
Kan generere sammenhængende og varieret tekst;
Udbredt anvendt i applikationer som chatbots og kodegenerering.

BERT og Maskeret Sproglig Modellering

BERT (Bidirectional Encoder Representations from Transformers) anvender kun enkoderen. Den trænes med maskeret sproglig modellering (MLM):

Tilfældige tokens erstattes med en [MASK];
Modellen forudsiger det oprindelige token baseret på fuld kontekst.

P(x_i | x_1, ..., x_{i-1}, [\text{MASK}], x_{i+1}, ..., x_n)

Dette gør BERT velegnet til opgaver som klassifikation, spørgsmål og svar samt semantisk lighed.

Transformere og LLM'er

Transformere udgør grundlaget for Large Language Models (LLM'er) såsom GPT-3, GPT-4, PaLM, LLaMA og Claude.

LLM'er anvender store datasæt og hundredvis af milliarder parametre, hvilket gør det muligt for dem at:

Forstå og generere menneskesprog;
Udføre oversættelse, opsummering, spørgsmål og svar, ræsonnement;
Drive chatbots, dokumentanalysatorer og kodeassistenter.

Transformeres skalerbarhed og evne til at modellere langtrækkende afhængigheder gør dem ideelle til disse modeller.

1. Hvad er den primære innovation, som transformere har introduceret?

2. Hvad adskiller BERT fra GPT?

3. Hvorfor er transformere ideelle til LLM'er?

Hvad er den primære innovation, som transformere har introduceret?

Select the correct answer

Rekurrente forbindelser

Selvopmærksomhed til sekvensmodellering

Konvolutionelle kontekstvinduer

Hukommelsesceller som i LSTM

Hvad adskiller BERT fra GPT?

Select the correct answer

GPT anvender maskering, BERT gør ikke.

BERT er kun dekoder, GPT er kun enkoder.

BERT er bidirektionel og anvender maskering.

GPT genererer tokens baglæns.

Hvorfor er transformere ideelle til LLM'er?

Select the correct answer

Let at implementere

Kun input med fast størrelse

Skalerbare og kan modellere langtrækkende afhængigheder

Kræver mindre træningsdata

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 2. Kapitel 8