Modelos Generativos Basados en Transformers
Desliza para mostrar el menú
Introducción a los Transformers y la Auto-Atención
Los Transformers constituyen una arquitectura fundamental en la inteligencia artificial moderna, especialmente en el Procesamiento de Lenguaje Natural (NLP) y en la modelación generativa. Presentados por primera vez en el artículo "Attention is All You Need" (Vaswani et al., 2017), los transformers eliminan la recurrencia en favor de un mecanismo denominado auto-atención, que permite a los modelos considerar todas las partes de la secuencia de entrada simultáneamente.
Mecanismo de Auto-Atención
El mecanismo de auto-atención permite al modelo ponderar la importancia de diferentes tokens en una secuencia en relación unos con otros. Esto se realiza utilizando tres matrices derivadas de los embeddings de entrada:
- Query (Q);
- Key (K);
- Value (V).
La salida de la atención se calcula como:
Attention(Q,K,V)=softmax(dkQKT)VDonde:
- Q, K y V son matrices derivadas de la entrada.
- dk es la dimensión de los vectores clave.
- softmax convierte las puntuaciones de similitud en probabilidades.
Esto permite que cada token atienda a todos los demás tokens y ajuste su representación en consecuencia.
Visión General de la Arquitectura Transformer
El modelo transformer consta de capas apiladas de codificador y decodificador:
- Codificador convierte la entrada en una representación latente contextualizada;
- Decodificador genera los tokens de salida utilizando la salida del codificador y los tokens previos.
Cada capa incluye:
- Auto-atención multi-cabeza;
- Redes neuronales feedforward;
- Normalización de capa;
- Conexiones residuales.
Auto-atención multi-cabeza
En lugar de calcular una única función de atención, el transformer utiliza múltiples cabezas de atención. Cada cabeza aprende a enfocarse en diferentes partes de la secuencia.
Multi-Head(Q,K,V)=Concat(head1,head2,...,headn)W0Donde cada cabeza se calcula como:
headi=Attention(QWiQ,KWiK,VWiV)Donde:
- WiQ,WiK,WiV son matrices de proyección para queries, keys y values;
- W0 proyecta las cabezas concatenadas de nuevo a la dimensión original.
Redes Neuronales Feedforward
Cada bloque de transformer incluye una red feedforward aplicada de manera independiente a cada posición:
FFN(x)=ReLU(xW1+b1)W2+b2- Consta de dos capas lineales con una no linealidad (por ejemplo, ReLU) entre ellas;
- Aplica la misma transformación en todas las posiciones.
Normalización de Capas
La normalización de capas normaliza la entrada a través de las características (canales) en lugar del lote. Esto estabiliza el entrenamiento y mejora la convergencia:
LayerNorm(x)=σx−μ⋅γ+βDonde:
- μ es la media de las características;
- σ es la desviación estándar;
- γ y β son parámetros aprendibles.
Conexiones Residuales
Las conexiones residuales suman la entrada de cada subcapa a su salida:
Output=Layer(x)+x- Esto ayuda con el flujo del gradiente y permite el entrenamiento de modelos más profundos;
- Se utilizan tanto alrededor de las capas de self-attention como de feedforward.
En modelos solo decodificadores (como GPT), solo se utiliza el decodificador con self-attention causal (enmascarada).
Transformadores Generativos Preentrenados (GPT)
Los modelos GPT son transformadores solo con decodificador entrenados para predecir el siguiente token de manera autoregresiva:
P(x1,x2,...,xn)=t=1∏nP(xt∣x<t)Características clave:
- Entrenados con conjuntos de datos de texto a gran escala;
- Capaces de generar texto coherente y diverso;
- Ampliamente utilizados en aplicaciones como chatbots y generación de código.
BERT y Modelado de Lenguaje enmascarado
BERT (Representaciones de Codificador Bidireccional de Transformadores) utiliza únicamente el codificador. Se entrena con modelado de lenguaje enmascarado (MLM):
- Tokens aleatorios son reemplazados por un [MASK];
- El modelo predice el token original basándose en el contexto completo.
Esto hace que BERT sea adecuado para tareas como clasificación, preguntas y respuestas, y similitud semántica.
Transformadores y LLMs
Los transformadores son la base de los Modelos de Lenguaje de Gran Escala (LLMs) como GPT-3, GPT-4, PaLM, LLaMA y Claude.
Los LLMs utilizan grandes conjuntos de datos y cientos de miles de millones de parámetros, lo que les permite:
- Comprender y generar lenguaje humano;
- Realizar traducción, resumen, preguntas y respuestas, razonamiento;
- Impulsar chatbots, analizadores de documentos y asistentes de codificación.
La escalabilidad de los transformadores y su capacidad para modelar dependencias de largo alcance los hacen ideales para estos modelos.
1. ¿Cuál es la innovación principal introducida por los transformers?
2. ¿Qué distingue a BERT de GPT?
3. ¿Por qué los transformers son ideales para los LLM?
¡Gracias por tus comentarios!
Pregunte a AI
Pregunte a AI
Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla