Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende Entrenamiento y Optimización | Construcción y Entrenamiento de Modelos Generativos
IA Generativa

bookEntrenamiento y Optimización

El entrenamiento de modelos generativos implica la optimización de paisajes de pérdida que suelen ser inestables y complejos. Esta sección presenta funciones de pérdida adaptadas a cada tipo de modelo, estrategias de optimización para estabilizar el entrenamiento y métodos para ajustar modelos preentrenados a casos de uso personalizados.

Funciones de pérdida principales

Diferentes familias de modelos generativos emplean formulaciones de pérdida distintas según cómo modelan las distribuciones de datos.

Pérdidas en GAN

Pérdida minimax (GAN original)

Configuración adversarial entre el generador GG y el discriminador DD (ejemplo con la biblioteca pythorch):

Least squares GAN (LSGAN)

Utiliza la pérdida L2 en lugar de la pérdida logarítmica para mejorar la estabilidad y el flujo del gradiente:

Wasserstein GAN (WGAN)

Minimiza la distancia Earth Mover (EM); reemplaza el discriminador por un "crítico" y utiliza recorte de pesos o penalización de gradiente para la continuidad de Lipschitz:

Pérdida VAE

Evidence Lower Bound (ELBO)

Combina reconstrucción y regularización. El término de divergencia KL incentiva que el posterior latente permanezca cercano al previo (usualmente normal estándar):

Pérdidas en Modelos de Difusión

Pérdida de Predicción de Ruido

Los modelos aprenden a eliminar el ruido gaussiano añadido a lo largo de un programa de difusión. Existen variantes que utilizan predicción de velocidad (por ejemplo, v-prediction en Stable Diffusion v2) u objetivos híbridos:

Técnicas de Optimización

El entrenamiento de modelos generativos suele ser inestable y sensible a los hiperparámetros. Se emplean varias técnicas para asegurar la convergencia y la calidad.

Optimizadores y Planificadores

  • Adam / AdamW: los optimizadores adaptativos de gradiente son el estándar de facto. Usar β1=0.5, β2=0.999\beta_1=0.5,\ \beta_2=0.999 para GANs;
  • RMSprop: a veces utilizado en variantes de WGAN;
  • Planificación de tasa de aprendizaje:
    • Fases de calentamiento para transformers y modelos de difusión;
    • Decaimiento cosenoidal o ReduceLROnPlateau para una convergencia estable.

Métodos de Estabilización

  • Recorte de gradiente: evitar gradientes explosivos en RNNs o UNets profundos;
  • Normalización espectral: aplicada a las capas del discriminador en GANs para imponer restricciones de Lipschitz;
  • Suavizado de etiquetas: suaviza etiquetas estrictas (por ejemplo, real = 0.9 en lugar de 1.0) para reducir la sobreconfianza;
  • Regla de actualización de dos escalas de tiempo (TTUR): utiliza diferentes tasas de aprendizaje para el generador y el discriminador para mejorar la convergencia;
  • Entrenamiento de precisión mixta: aprovecha FP16 (mediante NVIDIA Apex o PyTorch AMP) para un entrenamiento más rápido en GPUs modernas.
Note
Nota

Supervisar por separado las pérdidas del generador y del discriminador. Utilizar métricas como FID o IS periódicamente para evaluar la calidad real de la salida en lugar de depender únicamente de los valores de pérdida.

Ajuste fino de modelos generativos preentrenados

Los modelos generativos preentrenados (por ejemplo, Stable Diffusion, LLaMA, StyleGAN2) pueden ajustarse para tareas específicas de dominio utilizando estrategias de entrenamiento más ligeras.

Técnicas de aprendizaje por transferencia

  • Ajuste fino completo: reentrenar todos los pesos del modelo. Alto costo computacional pero máxima flexibilidad;
  • Re-congelación de capas / descongelación gradual: comenzar congelando la mayoría de las capas y luego descongelar gradualmente capas seleccionadas para un mejor ajuste fino. Esto evita el olvido catastrófico. Congelar las primeras capas ayuda a conservar características generales del preentrenamiento (como bordes o patrones de palabras), mientras que descongelar las capas posteriores permite que el modelo aprenda características específicas de la tarea;
  • LoRA / capas adaptadoras: inyectar capas entrenables de bajo rango sin actualizar los parámetros del modelo base;
  • DreamBooth / inversión textual (modelos de difusión):
    • Ajuste fino con un pequeño conjunto de imágenes específicas del sujeto.
    • Utilizar el pipeline de diffusers:
  • Ajuste de prompts / p-tuning:

Casos de uso comunes

  • Adaptación de estilo: ajuste fino en conjuntos de datos de anime, cómic o artísticos;
  • Ajuste específico de la industria: adaptación de LLMs a los dominios legal, médico o empresarial;
  • Personalización: condicionamiento de identidad o voz personalizada utilizando pequeños conjuntos de referencia.
Note
Nota

Utilizar Hugging Face PEFT para métodos basados en LoRA/adaptadores, y la biblioteca Diffusers para flujos de ajuste fino ligeros con soporte integrado para DreamBooth y guía libre de clasificadores.

Resumen

  • Utilizar funciones de pérdida específicas del modelo que se ajusten a los objetivos de entrenamiento y la estructura del modelo;
  • Optimizar con métodos adaptativos, técnicas de estabilización y programación eficiente;
  • Ajustar modelos preentrenados utilizando estrategias modernas de transferencia de bajo rango o basadas en prompts para reducir costos y aumentar la adaptabilidad al dominio.

1. ¿Cuál de los siguientes es un propósito principal del uso de técnicas de regularización durante el entrenamiento?

2. ¿Cuál de los siguientes optimizadores se utiliza comúnmente para entrenar modelos de aprendizaje profundo y adapta la tasa de aprendizaje durante el entrenamiento?

3. ¿Cuál es el principal desafío al entrenar modelos generativos, especialmente en el contexto de las GANs (Redes Generativas Antagónicas)?

question mark

¿Cuál de los siguientes es un propósito principal del uso de técnicas de regularización durante el entrenamiento?

Select the correct answer

question mark

¿Cuál de los siguientes optimizadores se utiliza comúnmente para entrenar modelos de aprendizaje profundo y adapta la tasa de aprendizaje durante el entrenamiento?

Select the correct answer

question mark

¿Cuál es el principal desafío al entrenar modelos generativos, especialmente en el contexto de las GANs (Redes Generativas Antagónicas)?

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 3. Capítulo 2

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Awesome!

Completion rate improved to 4.76

bookEntrenamiento y Optimización

Desliza para mostrar el menú

El entrenamiento de modelos generativos implica la optimización de paisajes de pérdida que suelen ser inestables y complejos. Esta sección presenta funciones de pérdida adaptadas a cada tipo de modelo, estrategias de optimización para estabilizar el entrenamiento y métodos para ajustar modelos preentrenados a casos de uso personalizados.

Funciones de pérdida principales

Diferentes familias de modelos generativos emplean formulaciones de pérdida distintas según cómo modelan las distribuciones de datos.

Pérdidas en GAN

Pérdida minimax (GAN original)

Configuración adversarial entre el generador GG y el discriminador DD (ejemplo con la biblioteca pythorch):

Least squares GAN (LSGAN)

Utiliza la pérdida L2 en lugar de la pérdida logarítmica para mejorar la estabilidad y el flujo del gradiente:

Wasserstein GAN (WGAN)

Minimiza la distancia Earth Mover (EM); reemplaza el discriminador por un "crítico" y utiliza recorte de pesos o penalización de gradiente para la continuidad de Lipschitz:

Pérdida VAE

Evidence Lower Bound (ELBO)

Combina reconstrucción y regularización. El término de divergencia KL incentiva que el posterior latente permanezca cercano al previo (usualmente normal estándar):

Pérdidas en Modelos de Difusión

Pérdida de Predicción de Ruido

Los modelos aprenden a eliminar el ruido gaussiano añadido a lo largo de un programa de difusión. Existen variantes que utilizan predicción de velocidad (por ejemplo, v-prediction en Stable Diffusion v2) u objetivos híbridos:

Técnicas de Optimización

El entrenamiento de modelos generativos suele ser inestable y sensible a los hiperparámetros. Se emplean varias técnicas para asegurar la convergencia y la calidad.

Optimizadores y Planificadores

  • Adam / AdamW: los optimizadores adaptativos de gradiente son el estándar de facto. Usar β1=0.5, β2=0.999\beta_1=0.5,\ \beta_2=0.999 para GANs;
  • RMSprop: a veces utilizado en variantes de WGAN;
  • Planificación de tasa de aprendizaje:
    • Fases de calentamiento para transformers y modelos de difusión;
    • Decaimiento cosenoidal o ReduceLROnPlateau para una convergencia estable.

Métodos de Estabilización

  • Recorte de gradiente: evitar gradientes explosivos en RNNs o UNets profundos;
  • Normalización espectral: aplicada a las capas del discriminador en GANs para imponer restricciones de Lipschitz;
  • Suavizado de etiquetas: suaviza etiquetas estrictas (por ejemplo, real = 0.9 en lugar de 1.0) para reducir la sobreconfianza;
  • Regla de actualización de dos escalas de tiempo (TTUR): utiliza diferentes tasas de aprendizaje para el generador y el discriminador para mejorar la convergencia;
  • Entrenamiento de precisión mixta: aprovecha FP16 (mediante NVIDIA Apex o PyTorch AMP) para un entrenamiento más rápido en GPUs modernas.
Note
Nota

Supervisar por separado las pérdidas del generador y del discriminador. Utilizar métricas como FID o IS periódicamente para evaluar la calidad real de la salida en lugar de depender únicamente de los valores de pérdida.

Ajuste fino de modelos generativos preentrenados

Los modelos generativos preentrenados (por ejemplo, Stable Diffusion, LLaMA, StyleGAN2) pueden ajustarse para tareas específicas de dominio utilizando estrategias de entrenamiento más ligeras.

Técnicas de aprendizaje por transferencia

  • Ajuste fino completo: reentrenar todos los pesos del modelo. Alto costo computacional pero máxima flexibilidad;
  • Re-congelación de capas / descongelación gradual: comenzar congelando la mayoría de las capas y luego descongelar gradualmente capas seleccionadas para un mejor ajuste fino. Esto evita el olvido catastrófico. Congelar las primeras capas ayuda a conservar características generales del preentrenamiento (como bordes o patrones de palabras), mientras que descongelar las capas posteriores permite que el modelo aprenda características específicas de la tarea;
  • LoRA / capas adaptadoras: inyectar capas entrenables de bajo rango sin actualizar los parámetros del modelo base;
  • DreamBooth / inversión textual (modelos de difusión):
    • Ajuste fino con un pequeño conjunto de imágenes específicas del sujeto.
    • Utilizar el pipeline de diffusers:
  • Ajuste de prompts / p-tuning:

Casos de uso comunes

  • Adaptación de estilo: ajuste fino en conjuntos de datos de anime, cómic o artísticos;
  • Ajuste específico de la industria: adaptación de LLMs a los dominios legal, médico o empresarial;
  • Personalización: condicionamiento de identidad o voz personalizada utilizando pequeños conjuntos de referencia.
Note
Nota

Utilizar Hugging Face PEFT para métodos basados en LoRA/adaptadores, y la biblioteca Diffusers para flujos de ajuste fino ligeros con soporte integrado para DreamBooth y guía libre de clasificadores.

Resumen

  • Utilizar funciones de pérdida específicas del modelo que se ajusten a los objetivos de entrenamiento y la estructura del modelo;
  • Optimizar con métodos adaptativos, técnicas de estabilización y programación eficiente;
  • Ajustar modelos preentrenados utilizando estrategias modernas de transferencia de bajo rango o basadas en prompts para reducir costos y aumentar la adaptabilidad al dominio.

1. ¿Cuál de los siguientes es un propósito principal del uso de técnicas de regularización durante el entrenamiento?

2. ¿Cuál de los siguientes optimizadores se utiliza comúnmente para entrenar modelos de aprendizaje profundo y adapta la tasa de aprendizaje durante el entrenamiento?

3. ¿Cuál es el principal desafío al entrenar modelos generativos, especialmente en el contexto de las GANs (Redes Generativas Antagónicas)?

question mark

¿Cuál de los siguientes es un propósito principal del uso de técnicas de regularización durante el entrenamiento?

Select the correct answer

question mark

¿Cuál de los siguientes optimizadores se utiliza comúnmente para entrenar modelos de aprendizaje profundo y adapta la tasa de aprendizaje durante el entrenamiento?

Select the correct answer

question mark

¿Cuál es el principal desafío al entrenar modelos generativos, especialmente en el contexto de las GANs (Redes Generativas Antagónicas)?

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 3. Capítulo 2
some-alt