Modelos de Difusão e Abordagens Generativas Probabilísticas

Compreendendo a Geração Baseada em Difusão

Modelos de difusão são um tipo avançado de modelo de IA que gera dados – especialmente imagens – aprendendo a reverter um processo de adição de ruído aleatório. Imagine observar uma imagem limpa tornando-se gradualmente borrada, como estática em uma TV. Um modelo de difusão aprende a fazer o oposto: recebe imagens ruidosas e reconstrói a imagem original removendo o ruído passo a passo.

O processo envolve duas fases principais:

Processo direto (difusão): adiciona gradualmente ruído aleatório a uma imagem ao longo de muitos passos, corrompendo-a até se tornar puro ruído;
Processo reverso (remoção de ruído): uma rede neural aprende a remover o ruído passo a passo, reconstruindo a imagem original a partir da versão ruidosa.

Modelos de difusão são conhecidos por sua capacidade de produzir imagens realistas e de alta qualidade. Seu treinamento é tipicamente mais estável em comparação com modelos como GANs, o que os torna muito atraentes na IA generativa moderna.

Modelos Probabilísticos de Difusão para Remoção de Ruído (DDPMs)

Modelos probabilísticos de difusão para remoção de ruído (DDPMs) são um tipo popular de modelo de difusão que aplicam princípios probabilísticos e aprendizado profundo para remover ruído de imagens de forma gradual, passo a passo.

Processo Direto

No processo direto, começamos com uma imagem real $x_0$ e adicionamos gradualmente ruído Gaussiano ao longo de $T$ passos de tempo:

q(x_t|x_{t-1})= \mathcal{N}(x_t;\sqrt{1-\beta_t}x_{t-1},\beta_tI)

Onde:

$x_t$ : versão ruidosa da entrada no passo de tempo;
$\beta_t$ : cronograma de pequena variância que controla quanto ruído é adicionado;
$\mathcal{N}$ : distribuição Gaussiana.

Também podemos expressar o ruído total adicionado até o passo como:

q(x_t|x_0)= \mathcal{N}(x_t;\sqrt{\={\alpha}_t}x_0,(1-\={\alpha}_t)I)

Onde:

$\=\alpha_t=\prod_{s=1}^t(1-\beta_s)$

Processo Reverso

O objetivo do modelo é aprender o processo reverso. Uma rede neural parametrizada por $\theta$ prevê a média e a variância da distribuição denoised:

p_\theta(x_{t-1}|x_t) = \mathcal{N}(x_{t-1};\mu_\theta(x_t,t), \Sigma_\theta(x_t,t))

onde:

$x_t$ : imagem ruidosa no instante de tempo $t$ ;
$x_{t-1}$ : imagem prevista com menos ruído no passo $t-1$ ;
$\mu_\theta$ : média prevista pela rede neural;
$\Sigma_\theta$ : variância prevista pela rede neural.

Função de Perda

O treinamento envolve minimizar a diferença entre o ruído real e o ruído previsto pelo modelo utilizando o seguinte objetivo:

L_{simple} = \mathbb{E}_{x_0, \epsilon, t} \left[ ||\epsilon - \epsilon_0 \left( \sqrt{\=\alpha_t}x_0 + \sqrt{1-\=\alpha_t}\epsilon, t \right)||^2 \right]

onde:

$x_t$ : imagem de entrada original;
$\epsilon$ : ruído gaussiano aleatório;
$t$ : instante de tempo durante a difusão;
$\epsilon_\theta$ : previsão do ruído pela rede neural;
$\={\alpha}_t$ : Produto dos parâmetros do agendamento de ruído até o passo $t$ .

Isso auxilia o modelo a aprimorar sua capacidade de remoção de ruído, melhorando sua habilidade de gerar dados realistas.

Modelagem Generativa Baseada em Score

Modelos baseados em score constituem outra classe de modelos de difusão. Em vez de aprender diretamente o processo reverso do ruído, eles aprendem a função score:

\nabla_x\log{p(x)}

onde:

$\nabla_x\log{p(x)}$ : gradiente da densidade de log-probabilidade em relação à entrada $x$ . Indica a direção de aumento da probabilidade sob a distribuição dos dados;
$p(x)$ : distribuição de probabilidade dos dados.

Essa função indica ao modelo em qual direção a imagem deve ser ajustada para se tornar mais semelhante aos dados reais. Esses modelos utilizam métodos de amostragem como dinâmica de Langevin para mover gradualmente dados ruidosos em direção a regiões de alta probabilidade dos dados.

Modelos baseados em score frequentemente operam em tempo contínuo utilizando equações diferenciais estocásticas (SDEs). Essa abordagem contínua proporciona flexibilidade e pode gerar amostras de alta qualidade em diversos tipos de dados.

Aplicações na Geração de Imagens em Alta Resolução

Os modelos de difusão revolucionaram tarefas generativas, especialmente na geração visual em alta resolução. Aplicações notáveis incluem:

Stable Diffusion: um modelo de difusão latente que gera imagens a partir de prompts de texto. Combina um modelo de remoção de ruído baseado em U-Net com um autoencoder variacional (VAE) para operar no espaço latente;
DALL·E 2: combina embeddings CLIP e decodificação baseada em difusão para gerar imagens altamente realistas e semânticas a partir de texto;
MidJourney: uma plataforma de geração de imagens baseada em difusão conhecida por produzir visuais de alta qualidade e estilo artístico a partir de prompts abstratos ou criativos.

Esses modelos são utilizados em geração de arte, síntese fotorrealista, inpainting, super-resolução e mais.

Resumo

Os modelos de difusão definem uma nova era de modelagem generativa ao tratar a geração de dados como um processo estocástico reverso no tempo. Por meio de DDPMs e modelos baseados em score, alcançam treinamento robusto, alta qualidade de amostras e resultados impressionantes em diversas modalidades. Seu embasamento em princípios probabilísticos e termodinâmicos os torna matematicamente elegantes e praticamente poderosos.

1. Qual é a ideia principal por trás dos modelos generativos baseados em difusão?

2. O que o processo direto do DDPM utiliza para adicionar ruído em cada etapa?

3. Qual das alternativas a seguir melhor descreve o papel da função score $\nabla_x\log{p(x)}$ na modelagem generativa baseada em score?

Qual é a ideia principal por trás dos modelos generativos baseados em difusão?

Select the correct answer

Reconstrução de dados revertendo um processo gradual de adição de ruído.

Compressão de dados usando autoencoders

Geração de dados adicionando ruído à pura aleatoriedade

Amostragem diretamente de uma distribuição latente

O que o processo direto do DDPM utiliza para adicionar ruído em cada etapa?

Select the correct answer

Distribuição uniforme

Distribuição Gaussiana com variância fixa

Distribuição Gaussiana com uma variância programada $\beta_t$

Distribuição Bernoulli com probabilidade aprendível

Qual das alternativas a seguir melhor descreve o papel da função score $\nabla_x\log{p(x)}$ na modelagem generativa baseada em score?

Select the correct answer

Estima a média da distribuição.

Define a quantidade de ruído adicionada durante o treinamento.

Comprime os dados em variáveis latentes.

Guia os dados para regiões de alta probabilidade durante a amostragem.

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 2. Capítulo 9

Pergunte à IA

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Suggested prompts:

Can you explain the difference between DDPMs and score-based models?

How does the reverse process actually reconstruct the original image?

What are some challenges or limitations of diffusion models?

Awesome!

Completion rate improved to 4.76

Modelos de Difusão e Abordagens Generativas Probabilísticas

Deslize para mostrar o menu

Compreendendo a Geração Baseada em Difusão

O processo envolve duas fases principais:

Processo direto (difusão): adiciona gradualmente ruído aleatório a uma imagem ao longo de muitos passos, corrompendo-a até se tornar puro ruído;
Processo reverso (remoção de ruído): uma rede neural aprende a remover o ruído passo a passo, reconstruindo a imagem original a partir da versão ruidosa.

Modelos Probabilísticos de Difusão para Remoção de Ruído (DDPMs)

Processo Direto

No processo direto, começamos com uma imagem real $x_0$ e adicionamos gradualmente ruído Gaussiano ao longo de $T$ passos de tempo:

q(x_t|x_{t-1})= \mathcal{N}(x_t;\sqrt{1-\beta_t}x_{t-1},\beta_tI)

Onde:

$x_t$ : versão ruidosa da entrada no passo de tempo;
$\beta_t$ : cronograma de pequena variância que controla quanto ruído é adicionado;
$\mathcal{N}$ : distribuição Gaussiana.

Também podemos expressar o ruído total adicionado até o passo como:

q(x_t|x_0)= \mathcal{N}(x_t;\sqrt{\={\alpha}_t}x_0,(1-\={\alpha}_t)I)

Onde:

$\=\alpha_t=\prod_{s=1}^t(1-\beta_s)$

Processo Reverso

O objetivo do modelo é aprender o processo reverso. Uma rede neural parametrizada por $\theta$ prevê a média e a variância da distribuição denoised:

p_\theta(x_{t-1}|x_t) = \mathcal{N}(x_{t-1};\mu_\theta(x_t,t), \Sigma_\theta(x_t,t))

onde:

$x_t$ : imagem ruidosa no instante de tempo $t$ ;
$x_{t-1}$ : imagem prevista com menos ruído no passo $t-1$ ;
$\mu_\theta$ : média prevista pela rede neural;
$\Sigma_\theta$ : variância prevista pela rede neural.

Função de Perda

O treinamento envolve minimizar a diferença entre o ruído real e o ruído previsto pelo modelo utilizando o seguinte objetivo:

L_{simple} = \mathbb{E}_{x_0, \epsilon, t} \left[ ||\epsilon - \epsilon_0 \left( \sqrt{\=\alpha_t}x_0 + \sqrt{1-\=\alpha_t}\epsilon, t \right)||^2 \right]

onde:

$x_t$ : imagem de entrada original;
$\epsilon$ : ruído gaussiano aleatório;
$t$ : instante de tempo durante a difusão;
$\epsilon_\theta$ : previsão do ruído pela rede neural;
$\={\alpha}_t$ : Produto dos parâmetros do agendamento de ruído até o passo $t$ .

Isso auxilia o modelo a aprimorar sua capacidade de remoção de ruído, melhorando sua habilidade de gerar dados realistas.

Modelagem Generativa Baseada em Score

Modelos baseados em score constituem outra classe de modelos de difusão. Em vez de aprender diretamente o processo reverso do ruído, eles aprendem a função score:

\nabla_x\log{p(x)}

onde:

$\nabla_x\log{p(x)}$ : gradiente da densidade de log-probabilidade em relação à entrada $x$ . Indica a direção de aumento da probabilidade sob a distribuição dos dados;
$p(x)$ : distribuição de probabilidade dos dados.

Aplicações na Geração de Imagens em Alta Resolução

Os modelos de difusão revolucionaram tarefas generativas, especialmente na geração visual em alta resolução. Aplicações notáveis incluem:

Stable Diffusion: um modelo de difusão latente que gera imagens a partir de prompts de texto. Combina um modelo de remoção de ruído baseado em U-Net com um autoencoder variacional (VAE) para operar no espaço latente;
DALL·E 2: combina embeddings CLIP e decodificação baseada em difusão para gerar imagens altamente realistas e semânticas a partir de texto;
MidJourney: uma plataforma de geração de imagens baseada em difusão conhecida por produzir visuais de alta qualidade e estilo artístico a partir de prompts abstratos ou criativos.

Esses modelos são utilizados em geração de arte, síntese fotorrealista, inpainting, super-resolução e mais.

Resumo

1. Qual é a ideia principal por trás dos modelos generativos baseados em difusão?

2. O que o processo direto do DDPM utiliza para adicionar ruído em cada etapa?

3. Qual das alternativas a seguir melhor descreve o papel da função score $\nabla_x\log{p(x)}$ na modelagem generativa baseada em score?

Qual é a ideia principal por trás dos modelos generativos baseados em difusão?

Select the correct answer

Reconstrução de dados revertendo um processo gradual de adição de ruído.

Compressão de dados usando autoencoders

Geração de dados adicionando ruído à pura aleatoriedade

Amostragem diretamente de uma distribuição latente

O que o processo direto do DDPM utiliza para adicionar ruído em cada etapa?

Select the correct answer

Distribuição uniforme

Distribuição Gaussiana com variância fixa

Distribuição Gaussiana com uma variância programada $\beta_t$

Distribuição Bernoulli com probabilidade aprendível

Qual das alternativas a seguir melhor descreve o papel da função score $\nabla_x\log{p(x)}$ na modelagem generativa baseada em score?

Select the correct answer

Estima a média da distribuição.

Define a quantidade de ruído adicionada durante o treinamento.

Comprime os dados em variáveis latentes.

Guia os dados para regiões de alta probabilidade durante a amostragem.

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 2. Capítulo 9

Modelos de Difusão e Abordagens Generativas Probabilísticas

Compreendendo a Geração Baseada em Difusão

Modelos Probabilísticos de Difusão para Remoção de Ruído (DDPMs)

Processo Direto

Processo Reverso

Função de Perda

Modelagem Generativa Baseada em Score

Aplicações na Geração de Imagens em Alta Resolução

Resumo

1. Qual é a ideia principal por trás dos modelos generativos baseados em difusão?

2. O que o processo direto do DDPM utiliza para adicionar ruído em cada etapa?

3. Qual das alternativas a seguir melhor descreve o papel da função score ∇xlog⁡p(x)\nabla_x\log{p(x)}∇x​logp(x) na modelagem generativa baseada em score?

Awesome!

Modelos de Difusão e Abordagens Generativas Probabilísticas

Compreendendo a Geração Baseada em Difusão

Modelos Probabilísticos de Difusão para Remoção de Ruído (DDPMs)

Processo Direto

Processo Reverso

Função de Perda

Modelagem Generativa Baseada em Score

Aplicações na Geração de Imagens em Alta Resolução

Resumo

1. Qual é a ideia principal por trás dos modelos generativos baseados em difusão?

2. O que o processo direto do DDPM utiliza para adicionar ruído em cada etapa?

3. Qual das alternativas a seguir melhor descreve o papel da função score ∇xlog⁡p(x)\nabla_x\log{p(x)}∇x​logp(x) na modelagem generativa baseada em score?

3. Qual das alternativas a seguir melhor descreve o papel da função score $\nabla_x\log{p(x)}$ na modelagem generativa baseada em score?

3. Qual das alternativas a seguir melhor descreve o papel da função score $\nabla_x\log{p(x)}$ na modelagem generativa baseada em score?