Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Modelos de Difusão e Abordagens Generativas Probabilísticas | Fundamentos Teóricos
IA Generativa

bookModelos de Difusão e Abordagens Generativas Probabilísticas

Compreendendo a Geração Baseada em Difusão

Modelos de difusão são um tipo avançado de modelo de IA que gera dados – especialmente imagens – aprendendo a reverter um processo de adição de ruído aleatório. Imagine observar uma imagem limpa tornando-se gradualmente borrada, como estática em uma TV. Um modelo de difusão aprende a fazer o oposto: recebe imagens ruidosas e reconstrói a imagem original removendo o ruído passo a passo.

O processo envolve duas fases principais:

  • Processo direto (difusão): adiciona gradualmente ruído aleatório a uma imagem ao longo de muitos passos, corrompendo-a até se tornar puro ruído;
  • Processo reverso (remoção de ruído): uma rede neural aprende a remover o ruído passo a passo, reconstruindo a imagem original a partir da versão ruidosa.

Modelos de difusão são conhecidos por sua capacidade de produzir imagens realistas e de alta qualidade. Seu treinamento é tipicamente mais estável em comparação com modelos como GANs, o que os torna muito atraentes na IA generativa moderna.

Modelos Probabilísticos de Difusão para Remoção de Ruído (DDPMs)

Modelos probabilísticos de difusão para remoção de ruído (DDPMs) são um tipo popular de modelo de difusão que aplicam princípios probabilísticos e aprendizado profundo para remover ruído de imagens de forma gradual, passo a passo.

Processo Direto

No processo direto, começamos com uma imagem real x0x_0 e adicionamos gradualmente ruído Gaussiano ao longo de TT passos de tempo:

q(xtxt1)=N(xt;1βtxt1,βtI)q(x_t|x_{t-1})= \mathcal{N}(x_t;\sqrt{1-\beta_t}x_{t-1},\beta_tI)

Onde:

  • xtx_t: versão ruidosa da entrada no passo de tempo;
  • βt\beta_t: cronograma de pequena variância que controla quanto ruído é adicionado;
  • N\mathcal{N}: distribuição Gaussiana.

Também podemos expressar o ruído total adicionado até o passo como:

q(xtx0)=N(xt;αˉtx0,(1αˉt)I)q(x_t|x_0)= \mathcal{N}(x_t;\sqrt{\={\alpha}_t}x_0,(1-\={\alpha}_t)I)

Onde:

  • αˉt=s=1t(1βs)\=\alpha_t=\prod_{s=1}^t(1-\beta_s)

Processo Reverso

O objetivo do modelo é aprender o processo reverso. Uma rede neural parametrizada por θ\theta prevê a média e a variância da distribuição denoised:

pθ(xt1xt)=N(xt1;μθ(xt,t),Σθ(xt,t))p_\theta(x_{t-1}|x_t) = \mathcal{N}(x_{t-1};\mu_\theta(x_t,t), \Sigma_\theta(x_t,t))

onde:

  • xtx_t: imagem ruidosa no instante de tempo tt;
  • xt1x_{t-1}: imagem prevista com menos ruído no passo t1t-1;
  • μθ\mu_\theta: média prevista pela rede neural;
  • Σθ\Sigma_\theta: variância prevista pela rede neural.

Função de Perda

O treinamento envolve minimizar a diferença entre o ruído real e o ruído previsto pelo modelo utilizando o seguinte objetivo:

Lsimple=Ex0,ϵ,t[ϵϵ0(αˉtx0+1αˉtϵ,t)2]L_{simple} = \mathbb{E}_{x_0, \epsilon, t} \left[ ||\epsilon - \epsilon_0 \left( \sqrt{\=\alpha_t}x_0 + \sqrt{1-\=\alpha_t}\epsilon, t \right)||^2 \right]

onde:

  • xtx_t: imagem de entrada original;
  • ϵ\epsilon: ruído gaussiano aleatório;
  • tt: instante de tempo durante a difusão;
  • ϵθ\epsilon_\theta: previsão do ruído pela rede neural;
  • αˉt\={\alpha}_t: Produto dos parâmetros do agendamento de ruído até o passo tt.

Isso auxilia o modelo a aprimorar sua capacidade de remoção de ruído, melhorando sua habilidade de gerar dados realistas.

Modelagem Generativa Baseada em Score

Modelos baseados em score constituem outra classe de modelos de difusão. Em vez de aprender diretamente o processo reverso do ruído, eles aprendem a função score:

xlogp(x)\nabla_x\log{p(x)}

onde:

  • xlogp(x)\nabla_x\log{p(x)}: gradiente da densidade de log-probabilidade em relação à entrada xx. Indica a direção de aumento da probabilidade sob a distribuição dos dados;
  • p(x)p(x): distribuição de probabilidade dos dados.

Essa função indica ao modelo em qual direção a imagem deve ser ajustada para se tornar mais semelhante aos dados reais. Esses modelos utilizam métodos de amostragem como dinâmica de Langevin para mover gradualmente dados ruidosos em direção a regiões de alta probabilidade dos dados.

Modelos baseados em score frequentemente operam em tempo contínuo utilizando equações diferenciais estocásticas (SDEs). Essa abordagem contínua proporciona flexibilidade e pode gerar amostras de alta qualidade em diversos tipos de dados.

Aplicações na Geração de Imagens em Alta Resolução

Os modelos de difusão revolucionaram tarefas generativas, especialmente na geração visual em alta resolução. Aplicações notáveis incluem:

  • Stable Diffusion: um modelo de difusão latente que gera imagens a partir de prompts de texto. Combina um modelo de remoção de ruído baseado em U-Net com um autoencoder variacional (VAE) para operar no espaço latente;
  • DALL·E 2: combina embeddings CLIP e decodificação baseada em difusão para gerar imagens altamente realistas e semânticas a partir de texto;
  • MidJourney: uma plataforma de geração de imagens baseada em difusão conhecida por produzir visuais de alta qualidade e estilo artístico a partir de prompts abstratos ou criativos.

Esses modelos são utilizados em geração de arte, síntese fotorrealista, inpainting, super-resolução e mais.

Resumo

Os modelos de difusão definem uma nova era de modelagem generativa ao tratar a geração de dados como um processo estocástico reverso no tempo. Por meio de DDPMs e modelos baseados em score, alcançam treinamento robusto, alta qualidade de amostras e resultados impressionantes em diversas modalidades. Seu embasamento em princípios probabilísticos e termodinâmicos os torna matematicamente elegantes e praticamente poderosos.

1. Qual é a ideia principal por trás dos modelos generativos baseados em difusão?

2. O que o processo direto do DDPM utiliza para adicionar ruído em cada etapa?

3. Qual das alternativas a seguir melhor descreve o papel da função score xlogp(x)\nabla_x\log{p(x)} na modelagem generativa baseada em score?

question mark

Qual é a ideia principal por trás dos modelos generativos baseados em difusão?

Select the correct answer

question mark

O que o processo direto do DDPM utiliza para adicionar ruído em cada etapa?

Select the correct answer

question mark

Qual das alternativas a seguir melhor descreve o papel da função score xlogp(x)\nabla_x\log{p(x)} na modelagem generativa baseada em score?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 2. Capítulo 9

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Suggested prompts:

Can you explain the difference between DDPMs and score-based models?

How does the reverse process actually reconstruct the original image?

What are some challenges or limitations of diffusion models?

Awesome!

Completion rate improved to 4.76

bookModelos de Difusão e Abordagens Generativas Probabilísticas

Deslize para mostrar o menu

Compreendendo a Geração Baseada em Difusão

Modelos de difusão são um tipo avançado de modelo de IA que gera dados – especialmente imagens – aprendendo a reverter um processo de adição de ruído aleatório. Imagine observar uma imagem limpa tornando-se gradualmente borrada, como estática em uma TV. Um modelo de difusão aprende a fazer o oposto: recebe imagens ruidosas e reconstrói a imagem original removendo o ruído passo a passo.

O processo envolve duas fases principais:

  • Processo direto (difusão): adiciona gradualmente ruído aleatório a uma imagem ao longo de muitos passos, corrompendo-a até se tornar puro ruído;
  • Processo reverso (remoção de ruído): uma rede neural aprende a remover o ruído passo a passo, reconstruindo a imagem original a partir da versão ruidosa.

Modelos de difusão são conhecidos por sua capacidade de produzir imagens realistas e de alta qualidade. Seu treinamento é tipicamente mais estável em comparação com modelos como GANs, o que os torna muito atraentes na IA generativa moderna.

Modelos Probabilísticos de Difusão para Remoção de Ruído (DDPMs)

Modelos probabilísticos de difusão para remoção de ruído (DDPMs) são um tipo popular de modelo de difusão que aplicam princípios probabilísticos e aprendizado profundo para remover ruído de imagens de forma gradual, passo a passo.

Processo Direto

No processo direto, começamos com uma imagem real x0x_0 e adicionamos gradualmente ruído Gaussiano ao longo de TT passos de tempo:

q(xtxt1)=N(xt;1βtxt1,βtI)q(x_t|x_{t-1})= \mathcal{N}(x_t;\sqrt{1-\beta_t}x_{t-1},\beta_tI)

Onde:

  • xtx_t: versão ruidosa da entrada no passo de tempo;
  • βt\beta_t: cronograma de pequena variância que controla quanto ruído é adicionado;
  • N\mathcal{N}: distribuição Gaussiana.

Também podemos expressar o ruído total adicionado até o passo como:

q(xtx0)=N(xt;αˉtx0,(1αˉt)I)q(x_t|x_0)= \mathcal{N}(x_t;\sqrt{\={\alpha}_t}x_0,(1-\={\alpha}_t)I)

Onde:

  • αˉt=s=1t(1βs)\=\alpha_t=\prod_{s=1}^t(1-\beta_s)

Processo Reverso

O objetivo do modelo é aprender o processo reverso. Uma rede neural parametrizada por θ\theta prevê a média e a variância da distribuição denoised:

pθ(xt1xt)=N(xt1;μθ(xt,t),Σθ(xt,t))p_\theta(x_{t-1}|x_t) = \mathcal{N}(x_{t-1};\mu_\theta(x_t,t), \Sigma_\theta(x_t,t))

onde:

  • xtx_t: imagem ruidosa no instante de tempo tt;
  • xt1x_{t-1}: imagem prevista com menos ruído no passo t1t-1;
  • μθ\mu_\theta: média prevista pela rede neural;
  • Σθ\Sigma_\theta: variância prevista pela rede neural.

Função de Perda

O treinamento envolve minimizar a diferença entre o ruído real e o ruído previsto pelo modelo utilizando o seguinte objetivo:

Lsimple=Ex0,ϵ,t[ϵϵ0(αˉtx0+1αˉtϵ,t)2]L_{simple} = \mathbb{E}_{x_0, \epsilon, t} \left[ ||\epsilon - \epsilon_0 \left( \sqrt{\=\alpha_t}x_0 + \sqrt{1-\=\alpha_t}\epsilon, t \right)||^2 \right]

onde:

  • xtx_t: imagem de entrada original;
  • ϵ\epsilon: ruído gaussiano aleatório;
  • tt: instante de tempo durante a difusão;
  • ϵθ\epsilon_\theta: previsão do ruído pela rede neural;
  • αˉt\={\alpha}_t: Produto dos parâmetros do agendamento de ruído até o passo tt.

Isso auxilia o modelo a aprimorar sua capacidade de remoção de ruído, melhorando sua habilidade de gerar dados realistas.

Modelagem Generativa Baseada em Score

Modelos baseados em score constituem outra classe de modelos de difusão. Em vez de aprender diretamente o processo reverso do ruído, eles aprendem a função score:

xlogp(x)\nabla_x\log{p(x)}

onde:

  • xlogp(x)\nabla_x\log{p(x)}: gradiente da densidade de log-probabilidade em relação à entrada xx. Indica a direção de aumento da probabilidade sob a distribuição dos dados;
  • p(x)p(x): distribuição de probabilidade dos dados.

Essa função indica ao modelo em qual direção a imagem deve ser ajustada para se tornar mais semelhante aos dados reais. Esses modelos utilizam métodos de amostragem como dinâmica de Langevin para mover gradualmente dados ruidosos em direção a regiões de alta probabilidade dos dados.

Modelos baseados em score frequentemente operam em tempo contínuo utilizando equações diferenciais estocásticas (SDEs). Essa abordagem contínua proporciona flexibilidade e pode gerar amostras de alta qualidade em diversos tipos de dados.

Aplicações na Geração de Imagens em Alta Resolução

Os modelos de difusão revolucionaram tarefas generativas, especialmente na geração visual em alta resolução. Aplicações notáveis incluem:

  • Stable Diffusion: um modelo de difusão latente que gera imagens a partir de prompts de texto. Combina um modelo de remoção de ruído baseado em U-Net com um autoencoder variacional (VAE) para operar no espaço latente;
  • DALL·E 2: combina embeddings CLIP e decodificação baseada em difusão para gerar imagens altamente realistas e semânticas a partir de texto;
  • MidJourney: uma plataforma de geração de imagens baseada em difusão conhecida por produzir visuais de alta qualidade e estilo artístico a partir de prompts abstratos ou criativos.

Esses modelos são utilizados em geração de arte, síntese fotorrealista, inpainting, super-resolução e mais.

Resumo

Os modelos de difusão definem uma nova era de modelagem generativa ao tratar a geração de dados como um processo estocástico reverso no tempo. Por meio de DDPMs e modelos baseados em score, alcançam treinamento robusto, alta qualidade de amostras e resultados impressionantes em diversas modalidades. Seu embasamento em princípios probabilísticos e termodinâmicos os torna matematicamente elegantes e praticamente poderosos.

1. Qual é a ideia principal por trás dos modelos generativos baseados em difusão?

2. O que o processo direto do DDPM utiliza para adicionar ruído em cada etapa?

3. Qual das alternativas a seguir melhor descreve o papel da função score xlogp(x)\nabla_x\log{p(x)} na modelagem generativa baseada em score?

question mark

Qual é a ideia principal por trás dos modelos generativos baseados em difusão?

Select the correct answer

question mark

O que o processo direto do DDPM utiliza para adicionar ruído em cada etapa?

Select the correct answer

question mark

Qual das alternativas a seguir melhor descreve o papel da função score xlogp(x)\nabla_x\log{p(x)} na modelagem generativa baseada em score?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 2. Capítulo 9
some-alt