Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Autoencodeurs Variationnels (VAEs) | Fondements Théoriques
IA Générative

bookAutoencodeurs Variationnels (VAEs)

Autoencodeurs et Autoencodeurs Variationnels

Les autoencodeurs sont des réseaux de neurones conçus pour apprendre des représentations efficaces des données à travers des processus d'encodage et de décodage. Un autoencodeur standard se compose de deux éléments :

  1. Encodeur : compresse les données d'entrée en une représentation de dimension inférieure.
  2. Décodeur : reconstruit les données originales à partir de la représentation compressée.

Les autoencodeurs traditionnels apprennent des mappages déterministes, ce qui signifie qu'ils compressent les données dans un espace latent fixe. Cependant, ils rencontrent des difficultés à générer des sorties diversifiées, car leur espace latent manque de structure et de régularité.

Différences entre les autoencodeurs standards et les VAE

Les autoencodeurs variationnels (VAE) améliorent les autoencodeurs standards en introduisant un espace latent probabiliste, permettant une génération structurée et significative de nouvelles données.

Structure encodeur-décodeur et représentation de l’espace latent

Les VAE se composent de deux éléments principaux :

  1. Encodeur : Associe les données d’entrée à une distribution de probabilité sur un espace latent de dimension inférieure zz.
  2. Décodeur : Échantillonne à partir de l’espace latent et reconstruit les données d’entrée.

Formulation mathématique :

L’encodeur produit une moyenne et une variance pour l’espace latent :

μ=fμ(x;θ)\mu = f_\mu (x; \theta) σ2=fσ(x;θ)\sigma^2 = f_\sigma (x; \theta)

où :

  • μ\mu désigne la moyenne de la distribution de l’espace latent ;
  • σ2\sigma^2 désigne la variance ;
  • fμf_\mu et fσf_\sigma sont des fonctions paramétrées par θ\theta, généralement implémentées sous forme de réseaux de neurones.

Au lieu de transmettre directement ces paramètres au décodeur, on échantillonne à partir d'une distribution gaussienne en utilisant l’astuce de reparamétrisation :

z=μ+σϵ,z = \mu + \sigma \odot \epsilon, ϵN(0,I)\epsilon \sim \mathcal{N}(0, I)

où :

  • \odot désigne la multiplication élément par élément ;
  • ϵ\epsilon est une variable aléatoire tirée d'une distribution normale standard.

Cette astuce permet la propagation du gradient à travers le processus d’échantillonnage, rendant la rétropropagation possible. Sans cette astuce, l’opération d’échantillonnage stochastique rendrait l’apprentissage par gradient impossible.

Le décodeur reconstruit l’entrée à partir de zz en apprenant une fonction g(z;ϕ)g(z; \phi), qui produit les paramètres de la distribution des données. Le réseau du décodeur est entraîné à minimiser la différence entre les données reconstruites et les données originales, garantissant ainsi des reconstructions de haute qualité.

Modélisation probabiliste dans les VAE

Les VAE reposent sur l'inférence bayésienne, qui leur permet de modéliser la relation entre les données observées xx et les variables latentes zz à l'aide de distributions de probabilité. Le principe fondamental s'appuie sur le théorème de Bayes :

P(zx)=P(xz)P(z)P(x)P(z|x)= \frac{P(x|z)P(z)}{P(x)}

Comme le calcul de p(x)p(x) nécessite une intégration sur toutes les variables latentes possibles, ce qui est infaisable, les VAE approchent l'a posteriori p(zx)p(z∣x) par une fonction plus simple q(zx)q(z∣x), permettant une inférence efficace.

Evidence Lower Bound (ELBO)

Au lieu de maximiser la vraisemblance marginale infaisable p(x)p(x), les VAE maximisent sa borne inférieure, appelée Evidence Lower Bound (ELBO) :

logp(x)Eq(zx)[logp(xz)]DKL(q(zx)p(z))\log{p(x)} \ge \mathbb{E}_{q(z|x)} \left[ \log{p(x|z)} \right] - D_{KL} (q (z | x) || p(z))

où :

  • Le premier terme, Eq(zx)[logp(xz)]\mathbb{E}_{q(z|x)}[\log{p(x|z)}], correspond à la perte de reconstruction, garantissant que la sortie ressemble à l'entrée ;
  • Le second terme, DKL(q(zx)  p(z))D_{KL}(q(z|x)\ ||\ p(z)), est la divergence de KL, qui régularise l'espace latent en s'assurant que q(zx)q(z∣x) reste proche du prior p(z)p(z).

En équilibrant ces deux termes, les VAE réalisent un compromis entre des reconstructions précises et des représentations latentes lisses.

Applications des VAE

1. Détection d'anomalies

Les VAE peuvent apprendre la structure normale des données. Lorsqu'ils rencontrent des entrées anormales, le modèle a du mal à les reconstruire, ce qui entraîne des erreurs de reconstruction plus élevées, utilisables pour détecter les valeurs aberrantes.

2. Synthèse d'images

Les VAE peuvent générer de nouvelles images en échantillonnant depuis l'espace latent appris. Ils sont largement utilisés dans des applications telles que :

  • Génération de visages (par exemple, génération de nouveaux visages humains) ;
  • Transfert de style (par exemple, mélange de styles artistiques).

3. Génération de texte

Les VAE peuvent être adaptés aux tâches de traitement du langage naturel (NLP), où ils servent à générer des séquences de texte diverses et cohérentes.

4. Découverte de médicaments

Les VAE ont été appliqués en bioinformatique et en découverte de médicaments, où ils génèrent des structures moléculaires possédant des propriétés souhaitées.

Conclusion

Les autoencodeurs variationnels constituent une classe puissante de modèles génératifs qui introduisent la modélisation probabiliste dans les autoencodeurs. Leur capacité à générer des données diverses et réalistes en fait un élément fondamental de l'IA générative moderne.

Comparés aux autoencodeurs traditionnels, les VAE offrent un espace latent structuré, améliorant les capacités génératives. Avec l'avancée de la recherche, les VAE continuent de jouer un rôle crucial dans les applications de l'IA couvrant la vision par ordinateur, le NLP et au-delà.

1. Quelle est la principale différence entre un autoencodeur standard et un autoencodeur variationnel (VAE) ?

2. Quel est le rôle du terme de divergence de KL dans la fonction de perte d'un VAE ?

3. Pourquoi l'astuce de reparamétrisation est-elle nécessaire dans les VAE ?

4. Laquelle des propositions suivantes décrit le mieux l’ELBO (Evidence Lower Bound) dans les VAE ?

5. Laquelle des propositions suivantes n’est PAS une application courante des VAE ?

question mark

Quelle est la principale différence entre un autoencodeur standard et un autoencodeur variationnel (VAE) ?

Select the correct answer

question mark

Quel est le rôle du terme de divergence de KL dans la fonction de perte d'un VAE ?

Select the correct answer

question mark

Pourquoi l'astuce de reparamétrisation est-elle nécessaire dans les VAE ?

Select the correct answer

question mark

Laquelle des propositions suivantes décrit le mieux l’ELBO (Evidence Lower Bound) dans les VAE ?

Select the correct answer

question mark

Laquelle des propositions suivantes n’est PAS une application courante des VAE ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 2. Chapitre 6

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Suggested prompts:

Can you explain the main differences between standard autoencoders and VAEs?

How does the reparameterization trick work in VAEs?

What are some practical applications of VAEs in real-world scenarios?

Awesome!

Completion rate improved to 4.76

bookAutoencodeurs Variationnels (VAEs)

Glissez pour afficher le menu

Autoencodeurs et Autoencodeurs Variationnels

Les autoencodeurs sont des réseaux de neurones conçus pour apprendre des représentations efficaces des données à travers des processus d'encodage et de décodage. Un autoencodeur standard se compose de deux éléments :

  1. Encodeur : compresse les données d'entrée en une représentation de dimension inférieure.
  2. Décodeur : reconstruit les données originales à partir de la représentation compressée.

Les autoencodeurs traditionnels apprennent des mappages déterministes, ce qui signifie qu'ils compressent les données dans un espace latent fixe. Cependant, ils rencontrent des difficultés à générer des sorties diversifiées, car leur espace latent manque de structure et de régularité.

Différences entre les autoencodeurs standards et les VAE

Les autoencodeurs variationnels (VAE) améliorent les autoencodeurs standards en introduisant un espace latent probabiliste, permettant une génération structurée et significative de nouvelles données.

Structure encodeur-décodeur et représentation de l’espace latent

Les VAE se composent de deux éléments principaux :

  1. Encodeur : Associe les données d’entrée à une distribution de probabilité sur un espace latent de dimension inférieure zz.
  2. Décodeur : Échantillonne à partir de l’espace latent et reconstruit les données d’entrée.

Formulation mathématique :

L’encodeur produit une moyenne et une variance pour l’espace latent :

μ=fμ(x;θ)\mu = f_\mu (x; \theta) σ2=fσ(x;θ)\sigma^2 = f_\sigma (x; \theta)

où :

  • μ\mu désigne la moyenne de la distribution de l’espace latent ;
  • σ2\sigma^2 désigne la variance ;
  • fμf_\mu et fσf_\sigma sont des fonctions paramétrées par θ\theta, généralement implémentées sous forme de réseaux de neurones.

Au lieu de transmettre directement ces paramètres au décodeur, on échantillonne à partir d'une distribution gaussienne en utilisant l’astuce de reparamétrisation :

z=μ+σϵ,z = \mu + \sigma \odot \epsilon, ϵN(0,I)\epsilon \sim \mathcal{N}(0, I)

où :

  • \odot désigne la multiplication élément par élément ;
  • ϵ\epsilon est une variable aléatoire tirée d'une distribution normale standard.

Cette astuce permet la propagation du gradient à travers le processus d’échantillonnage, rendant la rétropropagation possible. Sans cette astuce, l’opération d’échantillonnage stochastique rendrait l’apprentissage par gradient impossible.

Le décodeur reconstruit l’entrée à partir de zz en apprenant une fonction g(z;ϕ)g(z; \phi), qui produit les paramètres de la distribution des données. Le réseau du décodeur est entraîné à minimiser la différence entre les données reconstruites et les données originales, garantissant ainsi des reconstructions de haute qualité.

Modélisation probabiliste dans les VAE

Les VAE reposent sur l'inférence bayésienne, qui leur permet de modéliser la relation entre les données observées xx et les variables latentes zz à l'aide de distributions de probabilité. Le principe fondamental s'appuie sur le théorème de Bayes :

P(zx)=P(xz)P(z)P(x)P(z|x)= \frac{P(x|z)P(z)}{P(x)}

Comme le calcul de p(x)p(x) nécessite une intégration sur toutes les variables latentes possibles, ce qui est infaisable, les VAE approchent l'a posteriori p(zx)p(z∣x) par une fonction plus simple q(zx)q(z∣x), permettant une inférence efficace.

Evidence Lower Bound (ELBO)

Au lieu de maximiser la vraisemblance marginale infaisable p(x)p(x), les VAE maximisent sa borne inférieure, appelée Evidence Lower Bound (ELBO) :

logp(x)Eq(zx)[logp(xz)]DKL(q(zx)p(z))\log{p(x)} \ge \mathbb{E}_{q(z|x)} \left[ \log{p(x|z)} \right] - D_{KL} (q (z | x) || p(z))

où :

  • Le premier terme, Eq(zx)[logp(xz)]\mathbb{E}_{q(z|x)}[\log{p(x|z)}], correspond à la perte de reconstruction, garantissant que la sortie ressemble à l'entrée ;
  • Le second terme, DKL(q(zx)  p(z))D_{KL}(q(z|x)\ ||\ p(z)), est la divergence de KL, qui régularise l'espace latent en s'assurant que q(zx)q(z∣x) reste proche du prior p(z)p(z).

En équilibrant ces deux termes, les VAE réalisent un compromis entre des reconstructions précises et des représentations latentes lisses.

Applications des VAE

1. Détection d'anomalies

Les VAE peuvent apprendre la structure normale des données. Lorsqu'ils rencontrent des entrées anormales, le modèle a du mal à les reconstruire, ce qui entraîne des erreurs de reconstruction plus élevées, utilisables pour détecter les valeurs aberrantes.

2. Synthèse d'images

Les VAE peuvent générer de nouvelles images en échantillonnant depuis l'espace latent appris. Ils sont largement utilisés dans des applications telles que :

  • Génération de visages (par exemple, génération de nouveaux visages humains) ;
  • Transfert de style (par exemple, mélange de styles artistiques).

3. Génération de texte

Les VAE peuvent être adaptés aux tâches de traitement du langage naturel (NLP), où ils servent à générer des séquences de texte diverses et cohérentes.

4. Découverte de médicaments

Les VAE ont été appliqués en bioinformatique et en découverte de médicaments, où ils génèrent des structures moléculaires possédant des propriétés souhaitées.

Conclusion

Les autoencodeurs variationnels constituent une classe puissante de modèles génératifs qui introduisent la modélisation probabiliste dans les autoencodeurs. Leur capacité à générer des données diverses et réalistes en fait un élément fondamental de l'IA générative moderne.

Comparés aux autoencodeurs traditionnels, les VAE offrent un espace latent structuré, améliorant les capacités génératives. Avec l'avancée de la recherche, les VAE continuent de jouer un rôle crucial dans les applications de l'IA couvrant la vision par ordinateur, le NLP et au-delà.

1. Quelle est la principale différence entre un autoencodeur standard et un autoencodeur variationnel (VAE) ?

2. Quel est le rôle du terme de divergence de KL dans la fonction de perte d'un VAE ?

3. Pourquoi l'astuce de reparamétrisation est-elle nécessaire dans les VAE ?

4. Laquelle des propositions suivantes décrit le mieux l’ELBO (Evidence Lower Bound) dans les VAE ?

5. Laquelle des propositions suivantes n’est PAS une application courante des VAE ?

question mark

Quelle est la principale différence entre un autoencodeur standard et un autoencodeur variationnel (VAE) ?

Select the correct answer

question mark

Quel est le rôle du terme de divergence de KL dans la fonction de perte d'un VAE ?

Select the correct answer

question mark

Pourquoi l'astuce de reparamétrisation est-elle nécessaire dans les VAE ?

Select the correct answer

question mark

Laquelle des propositions suivantes décrit le mieux l’ELBO (Evidence Lower Bound) dans les VAE ?

Select the correct answer

question mark

Laquelle des propositions suivantes n’est PAS une application courante des VAE ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 2. Chapitre 6
some-alt