Aprende Modelos Generativos Basados en Transformers

Desliza para mostrar el menú

Introducción a los Transformers y la Auto-Atención

Los Transformers constituyen una arquitectura fundamental en la inteligencia artificial moderna, especialmente en el Procesamiento de Lenguaje Natural (NLP) y en la modelación generativa. Presentados por primera vez en el artículo "Attention is All You Need" (Vaswani et al., 2017), los transformers eliminan la recurrencia en favor de un mecanismo denominado auto-atención, que permite a los modelos considerar todas las partes de la secuencia de entrada simultáneamente.

Mecanismo de Auto-Atención

El mecanismo de auto-atención permite al modelo ponderar la importancia de diferentes tokens en una secuencia en relación unos con otros. Esto se realiza utilizando tres matrices derivadas de los embeddings de entrada:

Query (Q);
Key (K);
Value (V).

La salida de la atención se calcula como:

\text{Attention}(Q, K, V) = \text{softmax} \left( \frac{QK^T}{\sqrt{d_k}} \right)V

Donde:

$Q$ , $K$ y $V$ son matrices derivadas de la entrada.
$d_k$ es la dimensión de los vectores clave.
$\text{softmax}$ convierte las puntuaciones de similitud en probabilidades.

Esto permite que cada token atienda a todos los demás tokens y ajuste su representación en consecuencia.

Visión General de la Arquitectura Transformer

El modelo transformer consta de capas apiladas de codificador y decodificador:

Codificador convierte la entrada en una representación latente contextualizada;
Decodificador genera los tokens de salida utilizando la salida del codificador y los tokens previos.

Cada capa incluye:

Auto-atención multi-cabeza;
Redes neuronales feedforward;
Normalización de capa;
Conexiones residuales.

Auto-atención multi-cabeza

En lugar de calcular una única función de atención, el transformer utiliza múltiples cabezas de atención. Cada cabeza aprende a enfocarse en diferentes partes de la secuencia.

\text{Multi-Head}(Q, K, V) = \text{Concat}(\text{head}_1, \text{head}_2, ... , \text{head}_n)W^0

Donde cada cabeza se calcula como:

\text{head}_i = \text{Attention}(QW_i^Q, KW_i^K, VW_i^V)

Donde:

$W_i^Q, W_i^K, W_i^V$ son matrices de proyección para queries, keys y values;
$W^0$ proyecta las cabezas concatenadas de nuevo a la dimensión original.

Redes Neuronales Feedforward

Cada bloque de transformer incluye una red feedforward aplicada de manera independiente a cada posición:

\text{FFN}(x) = \text{ReLU}(x W_1 + b_1)W_2 + b_2

Consta de dos capas lineales con una no linealidad (por ejemplo, ReLU) entre ellas;
Aplica la misma transformación en todas las posiciones.

Normalización de Capas

La normalización de capas normaliza la entrada a través de las características (canales) en lugar del lote. Esto estabiliza el entrenamiento y mejora la convergencia:

\text{LayerNorm}(x) = \frac{x - \mu}{\sigma} \cdot \gamma + \beta

Donde:

$\mu$ es la media de las características;
$\sigma$ es la desviación estándar;
$\gamma$ y $\beta$ son parámetros aprendibles.

Conexiones Residuales

Las conexiones residuales suman la entrada de cada subcapa a su salida:

\text{Output} = \text{Layer}(x) + x

Esto ayuda con el flujo del gradiente y permite el entrenamiento de modelos más profundos;
Se utilizan tanto alrededor de las capas de self-attention como de feedforward.

En modelos solo decodificadores (como GPT), solo se utiliza el decodificador con self-attention causal (enmascarada).

Transformadores Generativos Preentrenados (GPT)

Los modelos GPT son transformadores solo con decodificador entrenados para predecir el siguiente token de manera autoregresiva:

P(x_1,x_2,...,x_n)=\prod_{t=1}^n{P(x_t|x_{<t})}

Características clave:

Entrenados con conjuntos de datos de texto a gran escala;
Capaces de generar texto coherente y diverso;
Ampliamente utilizados en aplicaciones como chatbots y generación de código.

BERT y Modelado de Lenguaje enmascarado

BERT (Representaciones de Codificador Bidireccional de Transformadores) utiliza únicamente el codificador. Se entrena con modelado de lenguaje enmascarado (MLM):

Tokens aleatorios son reemplazados por un [MASK];
El modelo predice el token original basándose en el contexto completo.

P(x_i | x_1, ..., x_{i-1}, [\text{MASK}], x_{i+1}, ..., x_n)

Esto hace que BERT sea adecuado para tareas como clasificación, preguntas y respuestas, y similitud semántica.

Transformadores y LLMs

Los transformadores son la base de los Modelos de Lenguaje de Gran Escala (LLMs) como GPT-3, GPT-4, PaLM, LLaMA y Claude.

Los LLMs utilizan grandes conjuntos de datos y cientos de miles de millones de parámetros, lo que les permite:

Comprender y generar lenguaje humano;
Realizar traducción, resumen, preguntas y respuestas, razonamiento;
Impulsar chatbots, analizadores de documentos y asistentes de codificación.

La escalabilidad de los transformadores y su capacidad para modelar dependencias de largo alcance los hacen ideales para estos modelos.

¿Todo estuvo claro?

¡Gracias por tus comentarios!

Sección 1. Capítulo 9

Pregunte a AI

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Sección 1. Capítulo 9

Modelos Generativos Basados en Transformers

Introducción a los Transformers y la Auto-Atención

Mecanismo de Auto-Atención

Visión General de la Arquitectura Transformer

Auto-atención multi-cabeza

Redes Neuronales Feedforward

Normalización de Capas

Conexiones Residuales

Transformadores Generativos Preentrenados (GPT)

BERT y Modelado de Lenguaje enmascarado

Transformadores y LLMs

1. ¿Cuál es la innovación principal introducida por los transformers?

2. ¿Qué distingue a BERT de GPT?

3. ¿Por qué los transformers son ideales para los LLM?