Autoencodeurs Variationnels (VAEs)

Autoencodeurs et Autoencodeurs Variationnels

Les autoencodeurs sont des réseaux de neurones conçus pour apprendre des représentations efficaces des données à travers des processus d'encodage et de décodage. Un autoencodeur standard se compose de deux éléments :

Encodeur : compresse les données d'entrée en une représentation de dimension inférieure.
Décodeur : reconstruit les données originales à partir de la représentation compressée.

Les autoencodeurs traditionnels apprennent des mappages déterministes, ce qui signifie qu'ils compressent les données dans un espace latent fixe. Cependant, ils rencontrent des difficultés à générer des sorties diversifiées, car leur espace latent manque de structure et de régularité.

Différences entre les autoencodeurs standards et les VAE

Les autoencodeurs variationnels (VAE) améliorent les autoencodeurs standards en introduisant un espace latent probabiliste, permettant une génération structurée et significative de nouvelles données.

Structure encodeur-décodeur et représentation de l’espace latent

Les VAE se composent de deux éléments principaux :

Encodeur : Associe les données d’entrée à une distribution de probabilité sur un espace latent de dimension inférieure $z$ .
Décodeur : Échantillonne à partir de l’espace latent et reconstruit les données d’entrée.

Formulation mathématique :

L’encodeur produit une moyenne et une variance pour l’espace latent :

\mu = f_\mu (x; \theta)

\sigma^2 = f_\sigma (x; \theta)

où :

$\mu$ désigne la moyenne de la distribution de l’espace latent ;
$\sigma^2$ désigne la variance ;
$f_\mu$ et $f_\sigma$ sont des fonctions paramétrées par $\theta$ , généralement implémentées sous forme de réseaux de neurones.

Au lieu de transmettre directement ces paramètres au décodeur, on échantillonne à partir d'une distribution gaussienne en utilisant l’astuce de reparamétrisation :

z = \mu + \sigma \odot \epsilon,

\epsilon \sim \mathcal{N}(0, I)

où :

$\odot$ désigne la multiplication élément par élément ;
$\epsilon$ est une variable aléatoire tirée d'une distribution normale standard.

Cette astuce permet la propagation du gradient à travers le processus d’échantillonnage, rendant la rétropropagation possible. Sans cette astuce, l’opération d’échantillonnage stochastique rendrait l’apprentissage par gradient impossible.

Le décodeur reconstruit l’entrée à partir de $z$ en apprenant une fonction $g(z; \phi)$ , qui produit les paramètres de la distribution des données. Le réseau du décodeur est entraîné à minimiser la différence entre les données reconstruites et les données originales, garantissant ainsi des reconstructions de haute qualité.

Modélisation probabiliste dans les VAE

Les VAE reposent sur l'inférence bayésienne, qui leur permet de modéliser la relation entre les données observées $x$ et les variables latentes $z$ à l'aide de distributions de probabilité. Le principe fondamental s'appuie sur le théorème de Bayes :

P(z|x)= \frac{P(x|z)P(z)}{P(x)}

Comme le calcul de $p(x)$ nécessite une intégration sur toutes les variables latentes possibles, ce qui est infaisable, les VAE approchent l'a posteriori $p(z∣x)$ par une fonction plus simple $q(z∣x)$ , permettant une inférence efficace.

Evidence Lower Bound (ELBO)

Au lieu de maximiser la vraisemblance marginale infaisable $p(x)$ , les VAE maximisent sa borne inférieure, appelée Evidence Lower Bound (ELBO) :

\log{p(x)} \ge \mathbb{E}_{q(z|x)} \left[ \log{p(x|z)} \right] - D_{KL} (q (z | x) || p(z))

où :

Le premier terme, $\mathbb{E}_{q(z|x)}[\log{p(x|z)}]$ , correspond à la perte de reconstruction, garantissant que la sortie ressemble à l'entrée ;
Le second terme, $D_{KL}(q(z|x)\ ||\ p(z))$ , est la divergence de KL, qui régularise l'espace latent en s'assurant que $q(z∣x)$ reste proche du prior $p(z)$ .

En équilibrant ces deux termes, les VAE réalisent un compromis entre des reconstructions précises et des représentations latentes lisses.

Applications des VAE

1. Détection d'anomalies

Les VAE peuvent apprendre la structure normale des données. Lorsqu'ils rencontrent des entrées anormales, le modèle a du mal à les reconstruire, ce qui entraîne des erreurs de reconstruction plus élevées, utilisables pour détecter les valeurs aberrantes.

2. Synthèse d'images

Les VAE peuvent générer de nouvelles images en échantillonnant depuis l'espace latent appris. Ils sont largement utilisés dans des applications telles que :

Génération de visages (par exemple, génération de nouveaux visages humains) ;
Transfert de style (par exemple, mélange de styles artistiques).

3. Génération de texte

Les VAE peuvent être adaptés aux tâches de traitement du langage naturel (NLP), où ils servent à générer des séquences de texte diverses et cohérentes.

4. Découverte de médicaments

Les VAE ont été appliqués en bioinformatique et en découverte de médicaments, où ils génèrent des structures moléculaires possédant des propriétés souhaitées.

Conclusion

Les autoencodeurs variationnels constituent une classe puissante de modèles génératifs qui introduisent la modélisation probabiliste dans les autoencodeurs. Leur capacité à générer des données diverses et réalistes en fait un élément fondamental de l'IA générative moderne.

Comparés aux autoencodeurs traditionnels, les VAE offrent un espace latent structuré, améliorant les capacités génératives. Avec l'avancée de la recherche, les VAE continuent de jouer un rôle crucial dans les applications de l'IA couvrant la vision par ordinateur, le NLP et au-delà.

1. Quelle est la principale différence entre un autoencodeur standard et un autoencodeur variationnel (VAE) ?

2. Quel est le rôle du terme de divergence de KL dans la fonction de perte d'un VAE ?

3. Pourquoi l'astuce de reparamétrisation est-elle nécessaire dans les VAE ?

4. Laquelle des propositions suivantes décrit le mieux l’ELBO (Evidence Lower Bound) dans les VAE ?

5. Laquelle des propositions suivantes n’est PAS une application courante des VAE ?

Quelle est la principale différence entre un autoencodeur standard et un autoencodeur variationnel (VAE) ?

Select the correct answer

Les VAE utilisent un encodage déterministe, tandis que les autoencodeurs standards utilisent un encodage probabiliste.

Les autoencodeurs standards apprennent une distribution sur l'espace latent, tandis que les VAE apprennent une représentation latente fixe.

Les VAE imposent une structure à l'espace latent en utilisant une modélisation probabiliste, tandis que les autoencodeurs standards ne le font pas.

Les autoencodeurs standards possèdent de meilleures capacités génératives que les VAE.

Quel est le rôle du terme de divergence de KL dans la fonction de perte d'un VAE ?

Select the correct answer

Il garantit que l'espace latent est discret plutôt que continu.

Il mesure la similarité entre l'approximation a posteriori et la distribution a priori.

Il maximise la vraisemblance des données générées.

Il minimise directement l'erreur de reconstruction du décodeur.

Pourquoi l'astuce de reparamétrisation est-elle nécessaire dans les VAE ?

Select the correct answer

Elle garantit que le décodeur reçoit des vecteurs latents fixes au lieu d'échantillons stochastiques.

Elle permet la rétropropagation à travers l'opération d'échantillonnage stochastique.

Elle réduit directement l'erreur de reconstruction du modèle.

Elle transforme l'espace latent en une fonction déterministe.

Laquelle des propositions suivantes décrit le mieux l’ELBO (Evidence Lower Bound) dans les VAE ?

Select the correct answer

Il représente une borne inférieure de la vraisemblance des données observées.

Il est utilisé uniquement pour optimiser le réseau de décodage.

Il élimine la nécessité du terme de divergence KL dans la fonction de perte.

Il garantit que l’encodeur et le décodeur fonctionnent indépendamment l’un de l’autre.

Laquelle des propositions suivantes n’est PAS une application courante des VAE ?

Select the correct answer

Génération d’images

Détection d’anomalies

Classification supervisée

Génération de texte

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 2. Chapitre 6

Demandez à l'IA

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Suggested prompts:

Can you explain the main differences between standard autoencoders and VAEs?

How does the reparameterization trick work in VAEs?

What are some practical applications of VAEs in real-world scenarios?

Awesome!

Completion rate improved to 4.76

Autoencodeurs Variationnels (VAEs)

Glissez pour afficher le menu

Autoencodeurs et Autoencodeurs Variationnels

Encodeur : compresse les données d'entrée en une représentation de dimension inférieure.
Décodeur : reconstruit les données originales à partir de la représentation compressée.

Différences entre les autoencodeurs standards et les VAE

Structure encodeur-décodeur et représentation de l’espace latent

Les VAE se composent de deux éléments principaux :

Encodeur : Associe les données d’entrée à une distribution de probabilité sur un espace latent de dimension inférieure $z$ .
Décodeur : Échantillonne à partir de l’espace latent et reconstruit les données d’entrée.

Formulation mathématique :

L’encodeur produit une moyenne et une variance pour l’espace latent :

\mu = f_\mu (x; \theta)

\sigma^2 = f_\sigma (x; \theta)

où :

$\mu$ désigne la moyenne de la distribution de l’espace latent ;
$\sigma^2$ désigne la variance ;
$f_\mu$ et $f_\sigma$ sont des fonctions paramétrées par $\theta$ , généralement implémentées sous forme de réseaux de neurones.

Au lieu de transmettre directement ces paramètres au décodeur, on échantillonne à partir d'une distribution gaussienne en utilisant l’astuce de reparamétrisation :

z = \mu + \sigma \odot \epsilon,

\epsilon \sim \mathcal{N}(0, I)

où :

$\odot$ désigne la multiplication élément par élément ;
$\epsilon$ est une variable aléatoire tirée d'une distribution normale standard.

Modélisation probabiliste dans les VAE

P(z|x)= \frac{P(x|z)P(z)}{P(x)}

Evidence Lower Bound (ELBO)

Au lieu de maximiser la vraisemblance marginale infaisable $p(x)$ , les VAE maximisent sa borne inférieure, appelée Evidence Lower Bound (ELBO) :

\log{p(x)} \ge \mathbb{E}_{q(z|x)} \left[ \log{p(x|z)} \right] - D_{KL} (q (z | x) || p(z))

où :

Le premier terme, $\mathbb{E}_{q(z|x)}[\log{p(x|z)}]$ , correspond à la perte de reconstruction, garantissant que la sortie ressemble à l'entrée ;
Le second terme, $D_{KL}(q(z|x)\ ||\ p(z))$ , est la divergence de KL, qui régularise l'espace latent en s'assurant que $q(z∣x)$ reste proche du prior $p(z)$ .

En équilibrant ces deux termes, les VAE réalisent un compromis entre des reconstructions précises et des représentations latentes lisses.

Applications des VAE

1. Détection d'anomalies

2. Synthèse d'images

Les VAE peuvent générer de nouvelles images en échantillonnant depuis l'espace latent appris. Ils sont largement utilisés dans des applications telles que :

Génération de visages (par exemple, génération de nouveaux visages humains) ;
Transfert de style (par exemple, mélange de styles artistiques).

3. Génération de texte

Les VAE peuvent être adaptés aux tâches de traitement du langage naturel (NLP), où ils servent à générer des séquences de texte diverses et cohérentes.

4. Découverte de médicaments

Les VAE ont été appliqués en bioinformatique et en découverte de médicaments, où ils génèrent des structures moléculaires possédant des propriétés souhaitées.

Conclusion

1. Quelle est la principale différence entre un autoencodeur standard et un autoencodeur variationnel (VAE) ?

2. Quel est le rôle du terme de divergence de KL dans la fonction de perte d'un VAE ?

3. Pourquoi l'astuce de reparamétrisation est-elle nécessaire dans les VAE ?

4. Laquelle des propositions suivantes décrit le mieux l’ELBO (Evidence Lower Bound) dans les VAE ?

5. Laquelle des propositions suivantes n’est PAS une application courante des VAE ?

Quelle est la principale différence entre un autoencodeur standard et un autoencodeur variationnel (VAE) ?

Select the correct answer

Les VAE utilisent un encodage déterministe, tandis que les autoencodeurs standards utilisent un encodage probabiliste.

Les autoencodeurs standards apprennent une distribution sur l'espace latent, tandis que les VAE apprennent une représentation latente fixe.

Les VAE imposent une structure à l'espace latent en utilisant une modélisation probabiliste, tandis que les autoencodeurs standards ne le font pas.

Les autoencodeurs standards possèdent de meilleures capacités génératives que les VAE.

Quel est le rôle du terme de divergence de KL dans la fonction de perte d'un VAE ?

Select the correct answer

Il garantit que l'espace latent est discret plutôt que continu.

Il mesure la similarité entre l'approximation a posteriori et la distribution a priori.

Il maximise la vraisemblance des données générées.

Il minimise directement l'erreur de reconstruction du décodeur.

Pourquoi l'astuce de reparamétrisation est-elle nécessaire dans les VAE ?

Select the correct answer

Elle garantit que le décodeur reçoit des vecteurs latents fixes au lieu d'échantillons stochastiques.

Elle permet la rétropropagation à travers l'opération d'échantillonnage stochastique.

Elle réduit directement l'erreur de reconstruction du modèle.

Elle transforme l'espace latent en une fonction déterministe.

Laquelle des propositions suivantes décrit le mieux l’ELBO (Evidence Lower Bound) dans les VAE ?

Select the correct answer

Il représente une borne inférieure de la vraisemblance des données observées.

Il est utilisé uniquement pour optimiser le réseau de décodage.

Il élimine la nécessité du terme de divergence KL dans la fonction de perte.

Il garantit que l’encodeur et le décodeur fonctionnent indépendamment l’un de l’autre.

Laquelle des propositions suivantes n’est PAS une application courante des VAE ?

Select the correct answer

Génération d’images

Détection d’anomalies

Classification supervisée

Génération de texte

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 2. Chapitre 6