Modèles de Diffusion et Approches Génératives Probabilistes

Compréhension de la génération basée sur la diffusion

Les modèles de diffusion représentent une catégorie puissante de modèles d’IA capables de générer des données – en particulier des images – en apprenant à inverser un processus d’ajout de bruit aléatoire. Imaginez observer une image nette devenir progressivement floue, comme des parasites sur un téléviseur. Un modèle de diffusion apprend à faire l’inverse : il prend des images bruitées et reconstruit l’image d’origine en supprimant le bruit étape par étape.

Le processus comprend deux phases principales :

Processus direct (diffusion) : ajoute progressivement du bruit aléatoire à une image sur de nombreuses étapes, la corrompant jusqu’à obtenir un bruit pur ;
Processus inverse (dénoyautage) : un réseau de neurones apprend à supprimer le bruit étape par étape, reconstruisant l’image d’origine à partir de la version bruitée.

Les modèles de diffusion sont reconnus pour leur capacité à produire des images de haute qualité et réalistes. Leur entraînement est généralement plus stable que celui des modèles tels que les GAN, ce qui les rend particulièrement attractifs dans l’IA générative moderne.

Modèles probabilistes de diffusion pour le débruitage (DDPM)

Les modèles probabilistes de diffusion pour le débruitage (DDPM, pour Denoising Diffusion Probabilistic Models) constituent une catégorie populaire de modèles de diffusion qui appliquent des principes probabilistes et l’apprentissage profond pour supprimer le bruit des images de manière progressive.

Processus direct

Dans le processus direct, on commence avec une image réelle $x_0$ et on ajoute progressivement du bruit gaussien sur $T$ pas de temps :

q(x_t|x_{t-1})= \mathcal{N}(x_t;\sqrt{1-\beta_t}x_{t-1},\beta_tI)

Où :

$x_t$ : version bruitée de l'entrée à l'instant t ;
$\beta_t$ : planning de faible variance contrôlant la quantité de bruit ajoutée ;
$\mathcal{N}$ : distribution gaussienne.

Le bruit total ajouté jusqu'à l'étape t peut également s'exprimer comme suit :

q(x_t|x_0)= \mathcal{N}(x_t;\sqrt{\={\alpha}_t}x_0,(1-\={\alpha}_t)I)

Où :

$\=\alpha_t=\prod_{s=1}^t(1-\beta_s)$

Processus inverse

L'objectif du modèle est d'apprendre l'inverse de ce processus. Un réseau de neurones paramétré par $\theta$ prédit la moyenne et la variance de la distribution débruitée :

p_\theta(x_{t-1}|x_t) = \mathcal{N}(x_{t-1};\mu_\theta(x_t,t), \Sigma_\theta(x_t,t))

où :

$x_t$ : image bruitée à l'instant $t$ ;
$x_{t-1}$ : image prédite moins bruitée à l'instant $t-1$ ;
$\mu_\theta$ : moyenne prédite par le réseau de neurones ;
$\Sigma_\theta$ : variance prédite par le réseau de neurones.

Fonction de perte

L'entraînement consiste à minimiser la différence entre le bruit réel et le bruit prédit par le modèle en utilisant l'objectif suivant :

L_{simple} = \mathbb{E}_{x_0, \epsilon, t} \left[ ||\epsilon - \epsilon_0 \left( \sqrt{\=\alpha_t}x_0 + \sqrt{1-\=\alpha_t}\epsilon, t \right)||^2 \right]

où :

$x_t$ : image d'entrée originale ;
$\epsilon$ : bruit gaussien aléatoire ;
$t$ : étape temporelle pendant la diffusion ;
$\epsilon_\theta$ : prédiction du bruit par le réseau de neurones ;
$\={\alpha}_t$ : produit des paramètres du planning de bruit jusqu'à l'étape $t$ .

Cela permet au modèle de mieux débruiter, améliorant ainsi sa capacité à générer des données réalistes.

Modélisation générative basée sur le score

Les modèles basés sur le score constituent une autre catégorie de modèles de diffusion. Au lieu d'apprendre directement le processus inverse du bruit, ils apprennent la fonction score :

\nabla_x\log{p(x)}

où :

$\nabla_x\log{p(x)}$ : gradient de la densité de probabilité logarithmique par rapport à l'entrée $x$ . Cela indique la direction d'augmentation de la vraisemblance selon la distribution des données ;
$p(x)$ : distribution de probabilité des données.

Cette fonction indique au modèle dans quelle direction l'image doit évoluer pour ressembler davantage à des données réelles. Ces modèles utilisent ensuite une méthode d'échantillonnage telle que la dynamique de Langevin pour déplacer progressivement les données bruitées vers des régions de données à forte probabilité.

Les modèles basés sur le score fonctionnent souvent en temps continu à l'aide d'équations différentielles stochastiques (EDS). Cette approche continue offre de la flexibilité et permet de générer des résultats de haute qualité sur divers types de données.

Applications dans la génération d’images haute résolution

Les modèles de diffusion ont révolutionné les tâches génératives, en particulier dans la génération visuelle haute résolution. Les applications notables incluent :

Stable Diffusion : un modèle de diffusion latente qui génère des images à partir d’instructions textuelles. Il combine un modèle de débruitage basé sur U-Net avec un autoencodeur variationnel (VAE) pour opérer dans l’espace latent ;
DALL·E 2 : combine des embeddings CLIP et un décodage basé sur la diffusion pour générer des images hautement réalistes et sémantiques à partir de texte ;
MidJourney : une plateforme de génération d’images basée sur la diffusion, reconnue pour produire des visuels de haute qualité au style artistique à partir d’instructions abstraites ou créatives.

Ces modèles sont utilisés pour la génération artistique, la synthèse photoréaliste, l’inpainting, la super-résolution, et plus encore.

Résumé

Les modèles de diffusion définissent une nouvelle ère de modélisation générative en traitant la génération de données comme un processus stochastique inversé dans le temps. Grâce aux DDPM et aux modèles basés sur le score, ils atteignent un entraînement robuste, une haute qualité d’échantillons et des résultats convaincants sur diverses modalités. Leur fondement dans les principes probabilistes et thermodynamiques les rend à la fois élégants sur le plan mathématique et puissants en pratique.

1. Quelle est l’idée principale des modèles génératifs basés sur la diffusion ?

2. Qu'utilise le processus direct des DDPM pour ajouter du bruit à chaque étape ?

3. Laquelle des propositions suivantes décrit le mieux le rôle de la fonction score $\nabla_x\log{p(x)}$ dans la modélisation générative basée sur le score ?

Quelle est l’idée principale des modèles génératifs basés sur la diffusion ?

Select the correct answer

Reconstruction des données en inversant un processus de bruit progressif.

Compression des données à l’aide d’autoencodeurs

Génération de données en ajoutant du bruit à un pur hasard

Échantillonnage directement à partir d’une distribution latente

Qu'utilise le processus direct des DDPM pour ajouter du bruit à chaque étape ?

Select the correct answer

Distribution uniforme

Distribution gaussienne à variance fixe

Distribution gaussienne à variance programmée $\beta_t$

Distribution de Bernoulli à probabilité apprenable

Laquelle des propositions suivantes décrit le mieux le rôle de la fonction score $\nabla_x\log{p(x)}$ dans la modélisation générative basée sur le score ?

Select the correct answer

Elle estime la moyenne de la distribution.

Elle définit la quantité de bruit ajoutée pendant l'entraînement.

Elle compresse les données en variables latentes.

Elle oriente les données vers les régions de forte probabilité lors de l'échantillonnage.

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 2. Chapitre 9

Demandez à l'IA

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Awesome!

Completion rate improved to 4.76

Modèles de Diffusion et Approches Génératives Probabilistes

Glissez pour afficher le menu

Compréhension de la génération basée sur la diffusion

Le processus comprend deux phases principales :

Processus direct (diffusion) : ajoute progressivement du bruit aléatoire à une image sur de nombreuses étapes, la corrompant jusqu’à obtenir un bruit pur ;
Processus inverse (dénoyautage) : un réseau de neurones apprend à supprimer le bruit étape par étape, reconstruisant l’image d’origine à partir de la version bruitée.

Modèles probabilistes de diffusion pour le débruitage (DDPM)

Processus direct

Dans le processus direct, on commence avec une image réelle $x_0$ et on ajoute progressivement du bruit gaussien sur $T$ pas de temps :

q(x_t|x_{t-1})= \mathcal{N}(x_t;\sqrt{1-\beta_t}x_{t-1},\beta_tI)

Où :

$x_t$ : version bruitée de l'entrée à l'instant t ;
$\beta_t$ : planning de faible variance contrôlant la quantité de bruit ajoutée ;
$\mathcal{N}$ : distribution gaussienne.

Le bruit total ajouté jusqu'à l'étape t peut également s'exprimer comme suit :

q(x_t|x_0)= \mathcal{N}(x_t;\sqrt{\={\alpha}_t}x_0,(1-\={\alpha}_t)I)

Où :

$\=\alpha_t=\prod_{s=1}^t(1-\beta_s)$

Processus inverse

L'objectif du modèle est d'apprendre l'inverse de ce processus. Un réseau de neurones paramétré par $\theta$ prédit la moyenne et la variance de la distribution débruitée :

p_\theta(x_{t-1}|x_t) = \mathcal{N}(x_{t-1};\mu_\theta(x_t,t), \Sigma_\theta(x_t,t))

où :

$x_t$ : image bruitée à l'instant $t$ ;
$x_{t-1}$ : image prédite moins bruitée à l'instant $t-1$ ;
$\mu_\theta$ : moyenne prédite par le réseau de neurones ;
$\Sigma_\theta$ : variance prédite par le réseau de neurones.

Fonction de perte

L'entraînement consiste à minimiser la différence entre le bruit réel et le bruit prédit par le modèle en utilisant l'objectif suivant :

L_{simple} = \mathbb{E}_{x_0, \epsilon, t} \left[ ||\epsilon - \epsilon_0 \left( \sqrt{\=\alpha_t}x_0 + \sqrt{1-\=\alpha_t}\epsilon, t \right)||^2 \right]

où :

$x_t$ : image d'entrée originale ;
$\epsilon$ : bruit gaussien aléatoire ;
$t$ : étape temporelle pendant la diffusion ;
$\epsilon_\theta$ : prédiction du bruit par le réseau de neurones ;
$\={\alpha}_t$ : produit des paramètres du planning de bruit jusqu'à l'étape $t$ .

Cela permet au modèle de mieux débruiter, améliorant ainsi sa capacité à générer des données réalistes.

Modélisation générative basée sur le score

Les modèles basés sur le score constituent une autre catégorie de modèles de diffusion. Au lieu d'apprendre directement le processus inverse du bruit, ils apprennent la fonction score :

\nabla_x\log{p(x)}

où :

$\nabla_x\log{p(x)}$ : gradient de la densité de probabilité logarithmique par rapport à l'entrée $x$ . Cela indique la direction d'augmentation de la vraisemblance selon la distribution des données ;
$p(x)$ : distribution de probabilité des données.

Applications dans la génération d’images haute résolution

Les modèles de diffusion ont révolutionné les tâches génératives, en particulier dans la génération visuelle haute résolution. Les applications notables incluent :

Stable Diffusion : un modèle de diffusion latente qui génère des images à partir d’instructions textuelles. Il combine un modèle de débruitage basé sur U-Net avec un autoencodeur variationnel (VAE) pour opérer dans l’espace latent ;
DALL·E 2 : combine des embeddings CLIP et un décodage basé sur la diffusion pour générer des images hautement réalistes et sémantiques à partir de texte ;
MidJourney : une plateforme de génération d’images basée sur la diffusion, reconnue pour produire des visuels de haute qualité au style artistique à partir d’instructions abstraites ou créatives.

Ces modèles sont utilisés pour la génération artistique, la synthèse photoréaliste, l’inpainting, la super-résolution, et plus encore.

Résumé

1. Quelle est l’idée principale des modèles génératifs basés sur la diffusion ?

2. Qu'utilise le processus direct des DDPM pour ajouter du bruit à chaque étape ?

3. Laquelle des propositions suivantes décrit le mieux le rôle de la fonction score $\nabla_x\log{p(x)}$ dans la modélisation générative basée sur le score ?

Quelle est l’idée principale des modèles génératifs basés sur la diffusion ?

Select the correct answer

Reconstruction des données en inversant un processus de bruit progressif.

Compression des données à l’aide d’autoencodeurs

Génération de données en ajoutant du bruit à un pur hasard

Échantillonnage directement à partir d’une distribution latente

Qu'utilise le processus direct des DDPM pour ajouter du bruit à chaque étape ?

Select the correct answer

Distribution uniforme

Distribution gaussienne à variance fixe

Distribution gaussienne à variance programmée $\beta_t$

Distribution de Bernoulli à probabilité apprenable

Laquelle des propositions suivantes décrit le mieux le rôle de la fonction score $\nabla_x\log{p(x)}$ dans la modélisation générative basée sur le score ?

Select the correct answer

Elle estime la moyenne de la distribution.

Elle définit la quantité de bruit ajoutée pendant l'entraînement.

Elle compresse les données en variables latentes.

Elle oriente les données vers les régions de forte probabilité lors de l'échantillonnage.

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 2. Chapitre 9

Modèles de Diffusion et Approches Génératives Probabilistes

Compréhension de la génération basée sur la diffusion

Modèles probabilistes de diffusion pour le débruitage (DDPM)

Processus direct

Processus inverse

Fonction de perte

Modélisation générative basée sur le score

Applications dans la génération d’images haute résolution

Résumé

1. Quelle est l’idée principale des modèles génératifs basés sur la diffusion ?

2. Qu'utilise le processus direct des DDPM pour ajouter du bruit à chaque étape ?

3. Laquelle des propositions suivantes décrit le mieux le rôle de la fonction score ∇xlog⁡p(x)\nabla_x\log{p(x)}∇x​logp(x) dans la modélisation générative basée sur le score ?

Awesome!

Modèles de Diffusion et Approches Génératives Probabilistes

Compréhension de la génération basée sur la diffusion

Modèles probabilistes de diffusion pour le débruitage (DDPM)

Processus direct

Processus inverse

Fonction de perte

Modélisation générative basée sur le score

Applications dans la génération d’images haute résolution

Résumé

1. Quelle est l’idée principale des modèles génératifs basés sur la diffusion ?

2. Qu'utilise le processus direct des DDPM pour ajouter du bruit à chaque étape ?

3. Laquelle des propositions suivantes décrit le mieux le rôle de la fonction score ∇xlog⁡p(x)\nabla_x\log{p(x)}∇x​logp(x) dans la modélisation générative basée sur le score ?

3. Laquelle des propositions suivantes décrit le mieux le rôle de la fonction score $\nabla_x\log{p(x)}$ dans la modélisation générative basée sur le score ?

3. Laquelle des propositions suivantes décrit le mieux le rôle de la fonction score $\nabla_x\log{p(x)}$ dans la modélisation générative basée sur le score ?