Entrenamiento y Optimización

El entrenamiento de modelos generativos implica la optimización de paisajes de pérdida que suelen ser inestables y complejos. Esta sección presenta funciones de pérdida adaptadas a cada tipo de modelo, estrategias de optimización para estabilizar el entrenamiento y métodos para ajustar modelos preentrenados a casos de uso personalizados.

Funciones de pérdida principales

Diferentes familias de modelos generativos emplean formulaciones de pérdida distintas según cómo modelan las distribuciones de datos.

Pérdidas en GAN

Pérdida minimax (GAN original)

Configuración adversarial entre el generador $G$ y el discriminador $D$ (ejemplo con la biblioteca pythorch):

Least squares GAN (LSGAN)

Utiliza la pérdida L2 en lugar de la pérdida logarítmica para mejorar la estabilidad y el flujo del gradiente:

Wasserstein GAN (WGAN)

Minimiza la distancia Earth Mover (EM); reemplaza el discriminador por un "crítico" y utiliza recorte de pesos o penalización de gradiente para la continuidad de Lipschitz:

Pérdida VAE

Evidence Lower Bound (ELBO)

Combina reconstrucción y regularización. El término de divergencia KL incentiva que el posterior latente permanezca cercano al previo (usualmente normal estándar):

Pérdidas en Modelos de Difusión

Pérdida de Predicción de Ruido

Los modelos aprenden a eliminar el ruido gaussiano añadido a lo largo de un programa de difusión. Existen variantes que utilizan predicción de velocidad (por ejemplo, v-prediction en Stable Diffusion v2) u objetivos híbridos:

Técnicas de Optimización

El entrenamiento de modelos generativos suele ser inestable y sensible a los hiperparámetros. Se emplean varias técnicas para asegurar la convergencia y la calidad.

Optimizadores y Planificadores

Adam / AdamW: los optimizadores adaptativos de gradiente son el estándar de facto. Usar $\beta_1=0.5,\ \beta_2=0.999$ para GANs;
RMSprop: a veces utilizado en variantes de WGAN;
Planificación de tasa de aprendizaje:
- Fases de calentamiento para transformers y modelos de difusión;
- Decaimiento cosenoidal o ReduceLROnPlateau para una convergencia estable.

Métodos de Estabilización

Recorte de gradiente: evitar gradientes explosivos en RNNs o UNets profundos;

Normalización espectral: aplicada a las capas del discriminador en GANs para imponer restricciones de Lipschitz;

Suavizado de etiquetas: suaviza etiquetas estrictas (por ejemplo, real = 0.9 en lugar de 1.0) para reducir la sobreconfianza;
Regla de actualización de dos escalas de tiempo (TTUR): utiliza diferentes tasas de aprendizaje para el generador y el discriminador para mejorar la convergencia;
Entrenamiento de precisión mixta: aprovecha FP16 (mediante NVIDIA Apex o PyTorch AMP) para un entrenamiento más rápido en GPUs modernas.

Nota

Supervisar por separado las pérdidas del generador y del discriminador. Utilizar métricas como FID o IS periódicamente para evaluar la calidad real de la salida en lugar de depender únicamente de los valores de pérdida.

Ajuste fino de modelos generativos preentrenados

Los modelos generativos preentrenados (por ejemplo, Stable Diffusion, LLaMA, StyleGAN2) pueden ajustarse para tareas específicas de dominio utilizando estrategias de entrenamiento más ligeras.

Técnicas de aprendizaje por transferencia

Ajuste fino completo: reentrenar todos los pesos del modelo. Alto costo computacional pero máxima flexibilidad;

Re-congelación de capas / descongelación gradual: comenzar congelando la mayoría de las capas y luego descongelar gradualmente capas seleccionadas para un mejor ajuste fino. Esto evita el olvido catastrófico. Congelar las primeras capas ayuda a conservar características generales del preentrenamiento (como bordes o patrones de palabras), mientras que descongelar las capas posteriores permite que el modelo aprenda características específicas de la tarea;

LoRA / capas adaptadoras: inyectar capas entrenables de bajo rango sin actualizar los parámetros del modelo base;

DreamBooth / inversión textual (modelos de difusión):
- Ajuste fino con un pequeño conjunto de imágenes específicas del sujeto.
- Utilizar el pipeline de diffusers:

Ajuste de prompts / p-tuning:

Casos de uso comunes

Adaptación de estilo: ajuste fino en conjuntos de datos de anime, cómic o artísticos;
Ajuste específico de la industria: adaptación de LLMs a los dominios legal, médico o empresarial;
Personalización: condicionamiento de identidad o voz personalizada utilizando pequeños conjuntos de referencia.

Nota

Utilizar Hugging Face PEFT para métodos basados en LoRA/adaptadores, y la biblioteca Diffusers para flujos de ajuste fino ligeros con soporte integrado para DreamBooth y guía libre de clasificadores.

Resumen

Utilizar funciones de pérdida específicas del modelo que se ajusten a los objetivos de entrenamiento y la estructura del modelo;
Optimizar con métodos adaptativos, técnicas de estabilización y programación eficiente;
Ajustar modelos preentrenados utilizando estrategias modernas de transferencia de bajo rango o basadas en prompts para reducir costos y aumentar la adaptabilidad al dominio.

1. ¿Cuál de los siguientes es un propósito principal del uso de técnicas de regularización durante el entrenamiento?

2. ¿Cuál de los siguientes optimizadores se utiliza comúnmente para entrenar modelos de aprendizaje profundo y adapta la tasa de aprendizaje durante el entrenamiento?

3. ¿Cuál es el principal desafío al entrenar modelos generativos, especialmente en el contexto de las GANs (Redes Generativas Antagónicas)?

¿Cuál de los siguientes es un propósito principal del uso de técnicas de regularización durante el entrenamiento?

Select the correct answer

Aumentar el tamaño del conjunto de datos de entrenamiento.

Prevenir el sobreajuste penalizando modelos excesivamente complejos.

Acelerar el proceso de aprendizaje.

Reducir el costo computacional durante el entrenamiento.

¿Cuál de los siguientes optimizadores se utiliza comúnmente para entrenar modelos de aprendizaje profundo y adapta la tasa de aprendizaje durante el entrenamiento?

Select the correct answer

Stochastic Gradient Descent (SGD)

Adam

Adagrad

Momentum

¿Cuál es el principal desafío al entrenar modelos generativos, especialmente en el contexto de las GANs (Redes Generativas Antagónicas)?

Select the correct answer

Dificultad para equilibrar el entrenamiento del generador y el discriminador

Convergencia lenta debido a gradientes pequeños

Incapacidad para evaluar el rendimiento del modelo cuantitativamente

Sobreajuste del modelo discriminador

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 3. Capítulo 2

Pregunte a AI

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Awesome!

Completion rate improved to 4.76

Entrenamiento y Optimización

Desliza para mostrar el menú

Funciones de pérdida principales

Diferentes familias de modelos generativos emplean formulaciones de pérdida distintas según cómo modelan las distribuciones de datos.

Pérdidas en GAN

Pérdida minimax (GAN original)

Configuración adversarial entre el generador $G$ y el discriminador $D$ (ejemplo con la biblioteca pythorch):

Least squares GAN (LSGAN)

Utiliza la pérdida L2 en lugar de la pérdida logarítmica para mejorar la estabilidad y el flujo del gradiente:

Wasserstein GAN (WGAN)

Minimiza la distancia Earth Mover (EM); reemplaza el discriminador por un "crítico" y utiliza recorte de pesos o penalización de gradiente para la continuidad de Lipschitz:

Pérdida VAE

Evidence Lower Bound (ELBO)

Combina reconstrucción y regularización. El término de divergencia KL incentiva que el posterior latente permanezca cercano al previo (usualmente normal estándar):

Pérdidas en Modelos de Difusión

Pérdida de Predicción de Ruido

Técnicas de Optimización

El entrenamiento de modelos generativos suele ser inestable y sensible a los hiperparámetros. Se emplean varias técnicas para asegurar la convergencia y la calidad.

Optimizadores y Planificadores

Adam / AdamW: los optimizadores adaptativos de gradiente son el estándar de facto. Usar $\beta_1=0.5,\ \beta_2=0.999$ para GANs;
RMSprop: a veces utilizado en variantes de WGAN;
Planificación de tasa de aprendizaje:
- Fases de calentamiento para transformers y modelos de difusión;
- Decaimiento cosenoidal o ReduceLROnPlateau para una convergencia estable.

Métodos de Estabilización

Recorte de gradiente: evitar gradientes explosivos en RNNs o UNets profundos;

Normalización espectral: aplicada a las capas del discriminador en GANs para imponer restricciones de Lipschitz;

Suavizado de etiquetas: suaviza etiquetas estrictas (por ejemplo, real = 0.9 en lugar de 1.0) para reducir la sobreconfianza;
Regla de actualización de dos escalas de tiempo (TTUR): utiliza diferentes tasas de aprendizaje para el generador y el discriminador para mejorar la convergencia;
Entrenamiento de precisión mixta: aprovecha FP16 (mediante NVIDIA Apex o PyTorch AMP) para un entrenamiento más rápido en GPUs modernas.

Nota

Ajuste fino de modelos generativos preentrenados

Los modelos generativos preentrenados (por ejemplo, Stable Diffusion, LLaMA, StyleGAN2) pueden ajustarse para tareas específicas de dominio utilizando estrategias de entrenamiento más ligeras.

Técnicas de aprendizaje por transferencia

Ajuste fino completo: reentrenar todos los pesos del modelo. Alto costo computacional pero máxima flexibilidad;

Re-congelación de capas / descongelación gradual: comenzar congelando la mayoría de las capas y luego descongelar gradualmente capas seleccionadas para un mejor ajuste fino. Esto evita el olvido catastrófico. Congelar las primeras capas ayuda a conservar características generales del preentrenamiento (como bordes o patrones de palabras), mientras que descongelar las capas posteriores permite que el modelo aprenda características específicas de la tarea;

LoRA / capas adaptadoras: inyectar capas entrenables de bajo rango sin actualizar los parámetros del modelo base;

DreamBooth / inversión textual (modelos de difusión):
- Ajuste fino con un pequeño conjunto de imágenes específicas del sujeto.
- Utilizar el pipeline de diffusers:

Ajuste de prompts / p-tuning:

Casos de uso comunes

Adaptación de estilo: ajuste fino en conjuntos de datos de anime, cómic o artísticos;
Ajuste específico de la industria: adaptación de LLMs a los dominios legal, médico o empresarial;
Personalización: condicionamiento de identidad o voz personalizada utilizando pequeños conjuntos de referencia.

Nota

Resumen

Utilizar funciones de pérdida específicas del modelo que se ajusten a los objetivos de entrenamiento y la estructura del modelo;
Optimizar con métodos adaptativos, técnicas de estabilización y programación eficiente;
Ajustar modelos preentrenados utilizando estrategias modernas de transferencia de bajo rango o basadas en prompts para reducir costos y aumentar la adaptabilidad al dominio.

1. ¿Cuál de los siguientes es un propósito principal del uso de técnicas de regularización durante el entrenamiento?

2. ¿Cuál de los siguientes optimizadores se utiliza comúnmente para entrenar modelos de aprendizaje profundo y adapta la tasa de aprendizaje durante el entrenamiento?

3. ¿Cuál es el principal desafío al entrenar modelos generativos, especialmente en el contexto de las GANs (Redes Generativas Antagónicas)?

¿Cuál de los siguientes es un propósito principal del uso de técnicas de regularización durante el entrenamiento?

Select the correct answer

Aumentar el tamaño del conjunto de datos de entrenamiento.

Prevenir el sobreajuste penalizando modelos excesivamente complejos.

Acelerar el proceso de aprendizaje.

Reducir el costo computacional durante el entrenamiento.

¿Cuál de los siguientes optimizadores se utiliza comúnmente para entrenar modelos de aprendizaje profundo y adapta la tasa de aprendizaje durante el entrenamiento?

Select the correct answer

Stochastic Gradient Descent (SGD)

Adam

Adagrad

Momentum

¿Cuál es el principal desafío al entrenar modelos generativos, especialmente en el contexto de las GANs (Redes Generativas Antagónicas)?

Select the correct answer

Dificultad para equilibrar el entrenamiento del generador y el discriminador

Convergencia lenta debido a gradientes pequeños

Incapacidad para evaluar el rendimiento del modelo cuantitativamente

Sobreajuste del modelo discriminador

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 3. Capítulo 2