Redes Generativas Adversariais (GANs)

Redes Generativas Adversariais (GANs) são uma classe de modelos generativos introduzidos por Ian Goodfellow em 2014. Elas consistem em duas redes neurais — o Gerador e o Discriminador — treinadas simultaneamente em um contexto de teoria dos jogos. O gerador tenta produzir dados que se assemelham aos dados reais, enquanto o discriminador tenta distinguir dados reais dos dados gerados.

As GANs aprendem a gerar amostras de dados a partir de ruído resolvendo um jogo minimax. Ao longo do treinamento, o gerador se torna mais eficiente em produzir dados realistas, e o discriminador se torna mais eficiente em distinguir dados reais de dados falsos.

Arquitetura de uma GAN

Um modelo GAN básico consiste em dois componentes principais:

1. Gerador (G)

Recebe um vetor de ruído aleatório $z \sim p_z(z)$ como entrada;
Transforma esse vetor, por meio de uma rede neural, em uma amostra de dados $G(z)$ destinada a se assemelhar aos dados da distribuição verdadeira.

2. Discriminador (D)

Recebe uma amostra de dados real $x \sim p_x(x)$ ou uma amostra gerada $G(z)$ ;
Produz um escalar entre 0 e 1, estimando a probabilidade de que a entrada seja real.

Esses dois componentes são treinados simultaneamente. O gerador busca produzir amostras realistas para enganar o discriminador, enquanto o discriminador busca identificar corretamente amostras reais e geradas.

Jogo Minimax dos GANs

No centro dos GANs está o jogo minimax, um conceito da teoria dos jogos. Nesta configuração:

O gerador $G$ e o discriminador $D$ são jogadores concorrentes;
$D$ busca maximizar sua capacidade de distinguir dados reais de gerados;
$G$ busca minimizar a capacidade de $D$ de detectar seus dados falsos.

Essa dinâmica define um jogo de soma zero, onde o ganho de um jogador é a perda do outro. A otimização é definida como:

\underset{G}{\min} \, \underset{D}{\max} \, V(D, G) = \mathbb{E}_{\mathbf{x} \sim p_{x}}[\log D(\mathbf{x})] + \mathbb{E}_{\mathbf{z} \sim p_z}[\log(1 - D(G(\mathbf{z})))]

O gerador tenta enganar o discriminador gerando amostras $G(z)$ que sejam o mais próximas possível dos dados reais.

Funções de Perda

Embora o objetivo original do GAN defina um jogo minimax, na prática, funções de perda alternativas são utilizadas para estabilizar o treinamento.

Perda do Gerador Não Saturante:

L_G=-\mathbb{E}_{z \sim p_z}[\log{D(G(z))}]

Isso ajuda o gerador a receber gradientes fortes mesmo quando o discriminador apresenta bom desempenho.

Perda do Discriminador:

L_D = -\mathbb{E}_{x \sim p_x}[\log{D(x)}] - \mathbb{E}_{z \sim p_z}[\log{(1-D(G(z)))}]

Essas funções de perda incentivam o gerador a produzir amostras que aumentam a incerteza do discriminador e melhoram a convergência durante o treinamento.

Principais Variações das Arquiteturas GAN

Diversos tipos de GANs surgiram para lidar com limitações específicas ou para melhorar o desempenho:

GAN Condicional (cGAN)

GANs condicionais expandem o framework padrão de GAN ao introduzir informações adicionais (geralmente rótulos) tanto no gerador quanto no discriminador. Em vez de gerar dados apenas a partir de ruído aleatório, o gerador recebe tanto o ruído $z$ quanto uma condição $y$ (por exemplo, um rótulo de classe). O discriminador também recebe $y$ para avaliar se a amostra é realista sob aquela condição.

Casos de uso: geração de imagens condicionadas por classe, tradução de imagem para imagem, geração de texto para imagem.

Deep Convolutional GAN (DCGAN)

DCGANs substituem as camadas totalmente conectadas nos GANs originais por camadas convolucionais e convolucionais transpostas, tornando-os mais eficazes para geração de imagens. Também introduzem diretrizes arquiteturais como remoção de camadas totalmente conectadas, uso de normalização em lote e emprego de ativações ReLU/LeakyReLU.

Casos de uso: geração de imagens foto-realistas, aprendizado de representações visuais, aprendizado não supervisionado de características.

CycleGAN CycleGANs abordam o problema de tradução de imagem para imagem sem correspondência pareada. Diferente de outros modelos que exigem conjuntos de dados pareados (por exemplo, a mesma foto em dois estilos diferentes), CycleGANs podem aprender mapeamentos entre dois domínios sem exemplos pareados. Introduzem dois geradores e dois discriminadores, cada um responsável pelo mapeamento em uma direção (por exemplo, fotos para pinturas e vice-versa), e impõem uma perda de consistência de ciclo para garantir que traduzir de um domínio e retornar preserve a imagem original. Essa perda é fundamental para preservar o conteúdo e a estrutura.

A Perda de Consistência de Ciclo garante:

G_{BA}(G_{AB}(x)) \approx x\ \text{e}\ G_{AB}(G_{BA}(y))\approx y

onde:

$G_{AB}$ mapeia imagens do domínio A para o domínio B;
$G_{BA}$ mapeia do domínio B para o domínio A.
$x \in A, y \in B$ .

Casos de uso: conversão de foto para obra de arte, tradução de cavalo para zebra, conversão de voz entre falantes.

StyleGAN

StyleGAN, desenvolvido pela NVIDIA, introduz controle baseado em estilo no gerador. Em vez de alimentar um vetor de ruído diretamente ao gerador, ele passa por uma rede de mapeamento para produzir "vetores de estilo" que influenciam cada camada do gerador. Isso permite controle refinado sobre características visuais como cor do cabelo, expressões faciais ou iluminação.

Inovações notáveis:

Mistura de estilos, permite combinar múltiplos códigos latentes;
Normalização Adaptativa de Instância (AdaIN), controla mapas de características no gerador;
Crescimento progressivo, o treinamento começa em baixa resolução e aumenta ao longo do tempo.

Casos de uso: geração de imagens em ultra alta resolução (por exemplo, rostos), controle de atributos visuais, geração de arte.

Comparação: GANs vs VAEs

GANs são uma classe poderosa de modelos generativos capazes de produzir dados altamente realistas por meio de um processo de treinamento adversarial. Seu núcleo reside em um jogo minimax entre duas redes, utilizando funções de perda adversarial para aprimorar iterativamente ambos os componentes. Uma compreensão sólida de sua arquitetura, funções de perda—incluindo variantes como cGAN, DCGAN, CycleGAN e StyleGAN—e seu contraste com outros modelos como VAEs fornece aos profissionais a base necessária para aplicações em áreas como geração de imagens, síntese de vídeo, aumento de dados e mais.

1. Qual das alternativas a seguir melhor descreve os componentes de uma arquitetura GAN básica?

2. Qual é o objetivo do jogo minimax em GANs?

3. Qual das seguintes afirmações é verdadeira sobre a diferença entre GANs e VAEs?

Qual das alternativas a seguir melhor descreve os componentes de uma arquitetura GAN básica?

Select the correct answer

Um codificador e um decodificador treinados independentemente.

Um gerador que codifica dados reais e um discriminador que os reconstrói.

Um gerador que cria dados e um discriminador que avalia seu realismo.

Um codificador variacional e um discriminador de classificação.

Qual é o objetivo do jogo minimax em GANs?

Select the correct answer

Minimizar o erro de reconstrução entre entrada e saída.

Treinar tanto o gerador quanto o discriminador para maximizar a mesma função de perda.

O gerador minimiza a divergência KL enquanto o discriminador maximiza a acurácia.

O gerador tenta enganar o discriminador enquanto o discriminador tenta detectar falsificações.

Qual das seguintes afirmações é verdadeira sobre a diferença entre GANs e VAEs?

Select the correct answer

GANs modelam explicitamente a probabilidade dos dados, VAEs não.

GANs geram saídas mais nítidas, mas o treinamento geralmente é menos estável do que VAEs.

VAEs utilizam treinamento adversarial para produzir dados.

Ambos os modelos dependem do feedback do discriminador para atualizar o gerador.

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 2. Capítulo 7

Pergunte à IA

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Suggested prompts:

Can you explain the main differences between GANs and VAEs in more detail?

What are some common challenges when training GANs?

Could you give examples of real-world applications for each GAN variant?

Awesome!

Completion rate improved to 4.76

Redes Generativas Adversariais (GANs)

Deslize para mostrar o menu

Arquitetura de uma GAN

Um modelo GAN básico consiste em dois componentes principais:

1. Gerador (G)

Recebe um vetor de ruído aleatório $z \sim p_z(z)$ como entrada;
Transforma esse vetor, por meio de uma rede neural, em uma amostra de dados $G(z)$ destinada a se assemelhar aos dados da distribuição verdadeira.

2. Discriminador (D)

Recebe uma amostra de dados real $x \sim p_x(x)$ ou uma amostra gerada $G(z)$ ;
Produz um escalar entre 0 e 1, estimando a probabilidade de que a entrada seja real.

Jogo Minimax dos GANs

No centro dos GANs está o jogo minimax, um conceito da teoria dos jogos. Nesta configuração:

O gerador $G$ e o discriminador $D$ são jogadores concorrentes;
$D$ busca maximizar sua capacidade de distinguir dados reais de gerados;
$G$ busca minimizar a capacidade de $D$ de detectar seus dados falsos.

Essa dinâmica define um jogo de soma zero, onde o ganho de um jogador é a perda do outro. A otimização é definida como:

\underset{G}{\min} \, \underset{D}{\max} \, V(D, G) = \mathbb{E}_{\mathbf{x} \sim p_{x}}[\log D(\mathbf{x})] + \mathbb{E}_{\mathbf{z} \sim p_z}[\log(1 - D(G(\mathbf{z})))]

O gerador tenta enganar o discriminador gerando amostras $G(z)$ que sejam o mais próximas possível dos dados reais.

Funções de Perda

Embora o objetivo original do GAN defina um jogo minimax, na prática, funções de perda alternativas são utilizadas para estabilizar o treinamento.

Perda do Gerador Não Saturante:

L_G=-\mathbb{E}_{z \sim p_z}[\log{D(G(z))}]

Isso ajuda o gerador a receber gradientes fortes mesmo quando o discriminador apresenta bom desempenho.

Perda do Discriminador:

L_D = -\mathbb{E}_{x \sim p_x}[\log{D(x)}] - \mathbb{E}_{z \sim p_z}[\log{(1-D(G(z)))}]

Essas funções de perda incentivam o gerador a produzir amostras que aumentam a incerteza do discriminador e melhoram a convergência durante o treinamento.

Principais Variações das Arquiteturas GAN

Diversos tipos de GANs surgiram para lidar com limitações específicas ou para melhorar o desempenho:

GAN Condicional (cGAN)

Casos de uso: geração de imagens condicionadas por classe, tradução de imagem para imagem, geração de texto para imagem.

Deep Convolutional GAN (DCGAN)

Casos de uso: geração de imagens foto-realistas, aprendizado de representações visuais, aprendizado não supervisionado de características.

A Perda de Consistência de Ciclo garante:

G_{BA}(G_{AB}(x)) \approx x\ \text{e}\ G_{AB}(G_{BA}(y))\approx y

onde:

$G_{AB}$ mapeia imagens do domínio A para o domínio B;
$G_{BA}$ mapeia do domínio B para o domínio A.
$x \in A, y \in B$ .

Casos de uso: conversão de foto para obra de arte, tradução de cavalo para zebra, conversão de voz entre falantes.

StyleGAN

Inovações notáveis:

Mistura de estilos, permite combinar múltiplos códigos latentes;
Normalização Adaptativa de Instância (AdaIN), controla mapas de características no gerador;
Crescimento progressivo, o treinamento começa em baixa resolução e aumenta ao longo do tempo.

Casos de uso: geração de imagens em ultra alta resolução (por exemplo, rostos), controle de atributos visuais, geração de arte.

Comparação: GANs vs VAEs

1. Qual das alternativas a seguir melhor descreve os componentes de uma arquitetura GAN básica?

2. Qual é o objetivo do jogo minimax em GANs?

3. Qual das seguintes afirmações é verdadeira sobre a diferença entre GANs e VAEs?

Qual das alternativas a seguir melhor descreve os componentes de uma arquitetura GAN básica?

Select the correct answer

Um codificador e um decodificador treinados independentemente.

Um gerador que codifica dados reais e um discriminador que os reconstrói.

Um gerador que cria dados e um discriminador que avalia seu realismo.

Um codificador variacional e um discriminador de classificação.

Qual é o objetivo do jogo minimax em GANs?

Select the correct answer

Minimizar o erro de reconstrução entre entrada e saída.

Treinar tanto o gerador quanto o discriminador para maximizar a mesma função de perda.

O gerador minimiza a divergência KL enquanto o discriminador maximiza a acurácia.

O gerador tenta enganar o discriminador enquanto o discriminador tenta detectar falsificações.

Qual das seguintes afirmações é verdadeira sobre a diferença entre GANs e VAEs?

Select the correct answer

GANs modelam explicitamente a probabilidade dos dados, VAEs não.

GANs geram saídas mais nítidas, mas o treinamento geralmente é menos estável do que VAEs.

VAEs utilizam treinamento adversarial para produzir dados.

Ambos os modelos dependem do feedback do discriminador para atualizar o gerador.

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 2. Capítulo 7