Treinamento e Otimização

O treinamento de modelos generativos envolve a otimização de superfícies de perda frequentemente instáveis e complexas. Esta seção apresenta funções de perda adaptadas a cada tipo de modelo, estratégias de otimização para estabilizar o treinamento e métodos para ajuste fino de modelos pré-treinados para casos de uso personalizados.

Funções de Perda Principais

Diferentes famílias de modelos generativos utilizam formulações de perda distintas, dependendo de como modelam distribuições de dados.

Perdas em GANs

Perda minimax (GAN original)

Configuração adversarial entre gerador $G$ e discriminador $D$ (exemplo com a biblioteca pythorch):

Least squares GAN (LSGAN)

Utiliza perda L2 em vez de log loss para melhorar a estabilidade e o fluxo de gradientes:

Wasserstein GAN (WGAN)

Minimiza a distância Earth Mover (EM); substitui o discriminador por um "crítico" e utiliza weight clipping ou penalidade de gradiente para garantir a continuidade de Lipschitz:

Perda VAE

Evidence Lower Bound (ELBO)

Combina reconstrução e regularização. O termo de divergência KL incentiva o posterior latente a permanecer próximo ao prior (geralmente normal padrão):

Perdas em Modelos de Difusão

Perda de Predição de Ruído

Os modelos aprendem a remover o ruído gaussiano adicionado ao longo de um cronograma de difusão. Variantes utilizam predição de velocidade (por exemplo, v-prediction no Stable Diffusion v2) ou objetivos híbridos:

Técnicas de Otimização

O treinamento de modelos generativos é frequentemente instável e sensível a hiperparâmetros. Diversas técnicas são empregadas para garantir convergência e qualidade.

Otimizadores e Agendadores

Adam / AdamW: otimizadores adaptativos de gradiente são o padrão de fato. Utilizar $\beta_1=0.5,\ \beta_2=0.999$ para GANs;
RMSprop: às vezes utilizado em variantes de WGAN;
Agendamento da taxa de aprendizado:
- Fases de aquecimento para transformers e modelos de difusão;
- Decaimento cosseno ou ReduceLROnPlateau para convergência estável.

Métodos de Estabilização

Clipping de gradiente: evitar explosão de gradientes em RNNs ou UNets profundos;

Normalização espectral: aplicada às camadas do discriminador em GANs para impor restrições de Lipschitz;

Suavização de rótulos: suaviza rótulos rígidos (por exemplo, real = 0,9 em vez de 1,0) para reduzir o excesso de confiança;
Regra de atualização em duas escalas de tempo (TTUR): utiliza taxas de aprendizado diferentes para o gerador e o discriminador para melhorar a convergência;
Treinamento de precisão mista: utiliza FP16 (via NVIDIA Apex ou PyTorch AMP) para treinamento mais rápido em GPUs modernas.

Nota

Monitore separadamente as perdas do gerador e do discriminador. Utilize métricas como FID ou IS periodicamente para avaliar a qualidade real da saída, em vez de depender apenas dos valores de perda.

Ajuste Fino de Modelos Generativos Pré-Treinados

Modelos generativos pré-treinados (por exemplo, Stable Diffusion, LLaMA, StyleGAN2) podem ser ajustados para tarefas específicas de domínio utilizando estratégias de treinamento mais leves.

Técnicas de Aprendizado por Transferência

Ajuste fino completo: re-treinamento de todos os pesos do modelo. Alto custo computacional, porém máxima flexibilidade;

Re-congelamento de camadas / descongelamento gradual: iniciar congelando a maioria das camadas e, em seguida, descongelar gradualmente camadas selecionadas para um ajuste fino mais eficiente. Isso evita o esquecimento catastrófico. Congelar camadas iniciais ajuda a manter características gerais do pré-treinamento (como bordas ou padrões de palavras), enquanto descongelar as camadas finais permite ao modelo aprender características específicas da tarefa;

LoRA / camadas adaptadoras: injeção de camadas treináveis de baixa classificação sem atualizar os parâmetros do modelo base;

DreamBooth / inversão textual (modelos de difusão):
- Ajuste fino com um pequeno conjunto de imagens específicas do sujeito.
- Utilização do pipeline diffusers:

Ajuste de prompt / p-tuning:

Casos de Uso Comuns

Adaptação de estilo: ajuste fino em conjuntos de dados de anime, quadrinhos ou artísticos;
Ajuste específico para indústria: adaptação de LLMs para domínios jurídicos, médicos ou corporativos;
Personalização: condicionamento de identidade ou voz personalizada utilizando pequenos conjuntos de referência.

Nota

Utilize Hugging Face PEFT para métodos baseados em LoRA/adapter, e a biblioteca Diffusers para pipelines de ajuste fino leves com suporte integrado para DreamBooth e orientação livre de classificadores.

Resumo

Utilizar funções de perda específicas do modelo que correspondam aos objetivos de treinamento e à estrutura do modelo;
Otimizar com métodos adaptativos, técnicas de estabilização e agendamento eficiente;
Realizar ajuste fino de modelos pré-treinados utilizando estratégias modernas de transferência de baixa ordem ou baseadas em prompt para reduzir custos e aumentar a adaptabilidade ao domínio.

1. Qual das alternativas a seguir é um dos principais objetivos do uso de técnicas de regularização durante o treinamento?

2. Qual dos seguintes otimizadores é comumente utilizado para treinar modelos de deep learning e adapta a taxa de aprendizado durante o treinamento?

3. Qual é o principal desafio ao treinar modelos generativos, especialmente no contexto de GANs (Redes Generativas Adversariais)?

Qual das alternativas a seguir é um dos principais objetivos do uso de técnicas de regularização durante o treinamento?

Select the correct answer

Aumentar o tamanho do conjunto de dados de treinamento.

Evitar o overfitting penalizando modelos excessivamente complexos.

Acelerar o processo de aprendizado.

Reduzir o custo computacional durante o treinamento.

Qual dos seguintes otimizadores é comumente utilizado para treinar modelos de deep learning e adapta a taxa de aprendizado durante o treinamento?

Select the correct answer

Stochastic Gradient Descent (SGD)

Adam

Adagrad

Momentum

Qual é o principal desafio ao treinar modelos generativos, especialmente no contexto de GANs (Redes Generativas Adversariais)?

Select the correct answer

Dificuldade em equilibrar o treinamento do gerador e do discriminador

Convergência lenta devido a gradientes pequenos

Incapacidade de avaliar o desempenho do modelo quantitativamente

Overfitting do modelo discriminador

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 3. Capítulo 2

Pergunte à IA

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Awesome!

Completion rate improved to 4.76

Treinamento e Otimização

Deslize para mostrar o menu

Funções de Perda Principais

Diferentes famílias de modelos generativos utilizam formulações de perda distintas, dependendo de como modelam distribuições de dados.

Perdas em GANs

Perda minimax (GAN original)

Configuração adversarial entre gerador $G$ e discriminador $D$ (exemplo com a biblioteca pythorch):

Least squares GAN (LSGAN)

Utiliza perda L2 em vez de log loss para melhorar a estabilidade e o fluxo de gradientes:

Wasserstein GAN (WGAN)

Minimiza a distância Earth Mover (EM); substitui o discriminador por um "crítico" e utiliza weight clipping ou penalidade de gradiente para garantir a continuidade de Lipschitz:

Perda VAE

Evidence Lower Bound (ELBO)

Combina reconstrução e regularização. O termo de divergência KL incentiva o posterior latente a permanecer próximo ao prior (geralmente normal padrão):

Perdas em Modelos de Difusão

Perda de Predição de Ruído

Técnicas de Otimização

O treinamento de modelos generativos é frequentemente instável e sensível a hiperparâmetros. Diversas técnicas são empregadas para garantir convergência e qualidade.

Otimizadores e Agendadores

Adam / AdamW: otimizadores adaptativos de gradiente são o padrão de fato. Utilizar $\beta_1=0.5,\ \beta_2=0.999$ para GANs;
RMSprop: às vezes utilizado em variantes de WGAN;
Agendamento da taxa de aprendizado:
- Fases de aquecimento para transformers e modelos de difusão;
- Decaimento cosseno ou ReduceLROnPlateau para convergência estável.

Métodos de Estabilização

Clipping de gradiente: evitar explosão de gradientes em RNNs ou UNets profundos;

Normalização espectral: aplicada às camadas do discriminador em GANs para impor restrições de Lipschitz;

Suavização de rótulos: suaviza rótulos rígidos (por exemplo, real = 0,9 em vez de 1,0) para reduzir o excesso de confiança;
Regra de atualização em duas escalas de tempo (TTUR): utiliza taxas de aprendizado diferentes para o gerador e o discriminador para melhorar a convergência;
Treinamento de precisão mista: utiliza FP16 (via NVIDIA Apex ou PyTorch AMP) para treinamento mais rápido em GPUs modernas.

Nota

Ajuste Fino de Modelos Generativos Pré-Treinados

Modelos generativos pré-treinados (por exemplo, Stable Diffusion, LLaMA, StyleGAN2) podem ser ajustados para tarefas específicas de domínio utilizando estratégias de treinamento mais leves.

Técnicas de Aprendizado por Transferência

Ajuste fino completo: re-treinamento de todos os pesos do modelo. Alto custo computacional, porém máxima flexibilidade;

Re-congelamento de camadas / descongelamento gradual: iniciar congelando a maioria das camadas e, em seguida, descongelar gradualmente camadas selecionadas para um ajuste fino mais eficiente. Isso evita o esquecimento catastrófico. Congelar camadas iniciais ajuda a manter características gerais do pré-treinamento (como bordas ou padrões de palavras), enquanto descongelar as camadas finais permite ao modelo aprender características específicas da tarefa;

LoRA / camadas adaptadoras: injeção de camadas treináveis de baixa classificação sem atualizar os parâmetros do modelo base;

DreamBooth / inversão textual (modelos de difusão):
- Ajuste fino com um pequeno conjunto de imagens específicas do sujeito.
- Utilização do pipeline diffusers:

Ajuste de prompt / p-tuning:

Casos de Uso Comuns

Adaptação de estilo: ajuste fino em conjuntos de dados de anime, quadrinhos ou artísticos;
Ajuste específico para indústria: adaptação de LLMs para domínios jurídicos, médicos ou corporativos;
Personalização: condicionamento de identidade ou voz personalizada utilizando pequenos conjuntos de referência.

Nota

Resumo

Utilizar funções de perda específicas do modelo que correspondam aos objetivos de treinamento e à estrutura do modelo;
Otimizar com métodos adaptativos, técnicas de estabilização e agendamento eficiente;
Realizar ajuste fino de modelos pré-treinados utilizando estratégias modernas de transferência de baixa ordem ou baseadas em prompt para reduzir custos e aumentar a adaptabilidade ao domínio.

1. Qual das alternativas a seguir é um dos principais objetivos do uso de técnicas de regularização durante o treinamento?

2. Qual dos seguintes otimizadores é comumente utilizado para treinar modelos de deep learning e adapta a taxa de aprendizado durante o treinamento?

3. Qual é o principal desafio ao treinar modelos generativos, especialmente no contexto de GANs (Redes Generativas Adversariais)?

Qual das alternativas a seguir é um dos principais objetivos do uso de técnicas de regularização durante o treinamento?

Select the correct answer

Aumentar o tamanho do conjunto de dados de treinamento.

Evitar o overfitting penalizando modelos excessivamente complexos.

Acelerar o processo de aprendizado.

Reduzir o custo computacional durante o treinamento.

Qual dos seguintes otimizadores é comumente utilizado para treinar modelos de deep learning e adapta a taxa de aprendizado durante o treinamento?

Select the correct answer

Stochastic Gradient Descent (SGD)

Adam

Adagrad

Momentum

Qual é o principal desafio ao treinar modelos generativos, especialmente no contexto de GANs (Redes Generativas Adversariais)?

Select the correct answer

Dificuldade em equilibrar o treinamento do gerador e do discriminador

Convergência lenta devido a gradientes pequenos

Incapacidade de avaliar o desempenho do modelo quantitativamente

Overfitting do modelo discriminador

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 3. Capítulo 2