Modelos Generativos Baseados em Transformer
Introdução aos Transformers e ao Mecanismo de Self-Attention
Transformers são uma arquitetura fundamental na IA moderna, especialmente em Processamento de Linguagem Natural (PLN) e modelagem generativa. Primeiramente apresentados no artigo "Attention is All You Need" (Vaswani et al., 2017), os transformers abandonam a recorrência em favor de um mecanismo chamado self-attention, que permite aos modelos considerar todas as partes da sequência de entrada simultaneamente.
Mecanismo de Self-Attention
O mecanismo de self-attention permite ao modelo ponderar a importância de diferentes tokens em uma sequência em relação uns aos outros. Isso é feito utilizando três matrizes derivadas dos embeddings de entrada:
- Query (Q);
- Key (K);
- Value (V).
A saída da atenção é calculada como:
Attention(Q,K,V)=softmax(dkQKT)VOnde:
- Q, K e V são matrizes derivadas da entrada.
- dk é a dimensão dos vetores de chave.
- softmax converte os escores de similaridade em probabilidades.
Isso permite que cada token atenda a todos os outros tokens e ajuste sua representação de acordo.
Visão Geral da Arquitetura Transformer
O modelo transformer consiste em camadas empilhadas de codificador e decodificador:
- Codificador converte a entrada em uma representação latente contextualizada;
- Decodificador gera tokens de saída utilizando a saída do codificador e tokens anteriores.
Cada camada inclui:
- Atenção Automática Multi-Cabeça;
- Redes Neurais Feedforward;
- Normalização de Camada;
- Conexões Residuais.
Atenção Automática Multi-Cabeça
Em vez de calcular uma única função de atenção, o transformer utiliza múltiplas cabeças de atenção. Cada cabeça aprende a focar em diferentes partes da sequência.
Multi-Head(Q,K,V)=Concat(head1,head2,...,headn)W0Onde cada cabeça é calculada como:
headi=Attention(QWiQ,KWiK,VWiV)Onde:
- WiQ,WiK,WiV são matrizes de projeção para queries, keys e values;
- W0 projeta as cabeças concatenadas de volta para a dimensão original.
Redes Neurais Feedforward
Cada bloco do transformer inclui uma rede feedforward aplicada de forma independente a cada posição:
FFN(x)=ReLU(xW1+b1)W2+b2- Consiste em duas camadas lineares com uma não linearidade (por exemplo, ReLU) entre elas;
- Aplica a mesma transformação em todas as posições.
Normalização de Camada
A normalização de camada normaliza a entrada entre as características (canais) ao invés do lote. Isso estabiliza o treinamento e melhora a convergência:
LayerNorm(x)=σx−μ⋅γ+βOnde:
- μ é a média das características;
- σ é o desvio padrão;
- γ e β são parâmetros aprendíveis.
Conexões Residuais
As conexões residuais somam a entrada de cada subcamada à sua saída:
Output=Layer(x)+x- Auxilia no fluxo do gradiente e permite o treinamento de modelos mais profundos;
- Utilizada tanto nas camadas de self-attention quanto nas feedforward.
Em modelos apenas decodificadores (como o GPT), apenas o decodificador é utilizado com self-attention causal (mascarada).
Transformadores Generativos Pré-Treinados (GPT)
Modelos GPT são transformadores apenas decodificadores treinados para prever o próximo token de forma autoregressiva:
P(x1,x2,...,xn)=t=1∏nP(xt∣x<t)Principais características:
- Treinados em grandes conjuntos de dados de texto;
- Capazes de gerar textos coerentes e diversos;
- Amplamente utilizados em aplicações como chatbots e geração de código.
BERT e Modelagem de Linguagem Mascarada
BERT (Bidirectional Encoder Representations from Transformers) utiliza apenas o codificador. É treinado com modelagem de linguagem mascarada (MLM):
- Tokens aleatórios são substituídos por um [MASK];
- O modelo prevê o token original com base no contexto completo.
Isso torna o BERT adequado para tarefas como classificação, perguntas e respostas e similaridade semântica.
Transformadores e LLMs
Transformadores são a base dos Modelos de Linguagem de Grande Escala (LLMs) como GPT-3, GPT-4, PaLM, LLaMA e Claude.
LLMs utilizam grandes conjuntos de dados e centenas de bilhões de parâmetros, permitindo:
- Compreensão e geração de linguagem humana;
- Realização de tradução, sumarização, perguntas e respostas, raciocínio;
- Suporte a chatbots, analisadores de documentos e assistentes de programação.
A escalabilidade dos transformadores e a capacidade de modelar dependências de longo alcance os tornam ideais para esses modelos.
1. Qual é a principal inovação introduzida pelos transformers?
2. O que diferencia o BERT do GPT?
3. Por que os transformers são ideais para LLMs?
Obrigado pelo seu feedback!
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo
Awesome!
Completion rate improved to 4.76
Modelos Generativos Baseados em Transformer
Deslize para mostrar o menu
Introdução aos Transformers e ao Mecanismo de Self-Attention
Transformers são uma arquitetura fundamental na IA moderna, especialmente em Processamento de Linguagem Natural (PLN) e modelagem generativa. Primeiramente apresentados no artigo "Attention is All You Need" (Vaswani et al., 2017), os transformers abandonam a recorrência em favor de um mecanismo chamado self-attention, que permite aos modelos considerar todas as partes da sequência de entrada simultaneamente.
Mecanismo de Self-Attention
O mecanismo de self-attention permite ao modelo ponderar a importância de diferentes tokens em uma sequência em relação uns aos outros. Isso é feito utilizando três matrizes derivadas dos embeddings de entrada:
- Query (Q);
- Key (K);
- Value (V).
A saída da atenção é calculada como:
Attention(Q,K,V)=softmax(dkQKT)VOnde:
- Q, K e V são matrizes derivadas da entrada.
- dk é a dimensão dos vetores de chave.
- softmax converte os escores de similaridade em probabilidades.
Isso permite que cada token atenda a todos os outros tokens e ajuste sua representação de acordo.
Visão Geral da Arquitetura Transformer
O modelo transformer consiste em camadas empilhadas de codificador e decodificador:
- Codificador converte a entrada em uma representação latente contextualizada;
- Decodificador gera tokens de saída utilizando a saída do codificador e tokens anteriores.
Cada camada inclui:
- Atenção Automática Multi-Cabeça;
- Redes Neurais Feedforward;
- Normalização de Camada;
- Conexões Residuais.
Atenção Automática Multi-Cabeça
Em vez de calcular uma única função de atenção, o transformer utiliza múltiplas cabeças de atenção. Cada cabeça aprende a focar em diferentes partes da sequência.
Multi-Head(Q,K,V)=Concat(head1,head2,...,headn)W0Onde cada cabeça é calculada como:
headi=Attention(QWiQ,KWiK,VWiV)Onde:
- WiQ,WiK,WiV são matrizes de projeção para queries, keys e values;
- W0 projeta as cabeças concatenadas de volta para a dimensão original.
Redes Neurais Feedforward
Cada bloco do transformer inclui uma rede feedforward aplicada de forma independente a cada posição:
FFN(x)=ReLU(xW1+b1)W2+b2- Consiste em duas camadas lineares com uma não linearidade (por exemplo, ReLU) entre elas;
- Aplica a mesma transformação em todas as posições.
Normalização de Camada
A normalização de camada normaliza a entrada entre as características (canais) ao invés do lote. Isso estabiliza o treinamento e melhora a convergência:
LayerNorm(x)=σx−μ⋅γ+βOnde:
- μ é a média das características;
- σ é o desvio padrão;
- γ e β são parâmetros aprendíveis.
Conexões Residuais
As conexões residuais somam a entrada de cada subcamada à sua saída:
Output=Layer(x)+x- Auxilia no fluxo do gradiente e permite o treinamento de modelos mais profundos;
- Utilizada tanto nas camadas de self-attention quanto nas feedforward.
Em modelos apenas decodificadores (como o GPT), apenas o decodificador é utilizado com self-attention causal (mascarada).
Transformadores Generativos Pré-Treinados (GPT)
Modelos GPT são transformadores apenas decodificadores treinados para prever o próximo token de forma autoregressiva:
P(x1,x2,...,xn)=t=1∏nP(xt∣x<t)Principais características:
- Treinados em grandes conjuntos de dados de texto;
- Capazes de gerar textos coerentes e diversos;
- Amplamente utilizados em aplicações como chatbots e geração de código.
BERT e Modelagem de Linguagem Mascarada
BERT (Bidirectional Encoder Representations from Transformers) utiliza apenas o codificador. É treinado com modelagem de linguagem mascarada (MLM):
- Tokens aleatórios são substituídos por um [MASK];
- O modelo prevê o token original com base no contexto completo.
Isso torna o BERT adequado para tarefas como classificação, perguntas e respostas e similaridade semântica.
Transformadores e LLMs
Transformadores são a base dos Modelos de Linguagem de Grande Escala (LLMs) como GPT-3, GPT-4, PaLM, LLaMA e Claude.
LLMs utilizam grandes conjuntos de dados e centenas de bilhões de parâmetros, permitindo:
- Compreensão e geração de linguagem humana;
- Realização de tradução, sumarização, perguntas e respostas, raciocínio;
- Suporte a chatbots, analisadores de documentos e assistentes de programação.
A escalabilidade dos transformadores e a capacidade de modelar dependências de longo alcance os tornam ideais para esses modelos.
1. Qual é a principal inovação introduzida pelos transformers?
2. O que diferencia o BERT do GPT?
3. Por que os transformers são ideais para LLMs?
Obrigado pelo seu feedback!