Formation et Optimisation

L'entraînement des modèles génératifs implique l'optimisation de paysages de perte souvent instables et complexes. Cette section présente des fonctions de perte adaptées à chaque type de modèle, des stratégies d'optimisation pour stabiliser l'entraînement, ainsi que des méthodes pour l'ajustement fin de modèles pré-entraînés pour des cas d'utilisation personnalisés.

Fonctions de perte principales

Différentes familles de modèles génératifs utilisent des formulations de perte distinctes selon la manière dont elles modélisent les distributions de données.

Pertes des GAN

Perte minimax (GAN original)

Configuration adversariale entre le générateur $G$ et le discriminateur $D$ (exemple avec la bibliothèque pythorch) :

Least squares GAN (LSGAN)

Utilise la perte L2 au lieu de la perte logarithmique afin d'améliorer la stabilité et le flux du gradient :

Wasserstein GAN (WGAN)

Minimise la distance Earth Mover (EM) ; remplace le discriminateur par un « critique » et utilise le découpage des poids ou une pénalité de gradient pour assurer la continuité de Lipschitz :

Perte VAE

Evidence Lower Bound (ELBO)

Combine la reconstruction et la régularisation. Le terme de divergence KL encourage la postérieure latente à rester proche de la distribution a priori (généralement normale standard) :

Fonctions de perte pour les modèles de diffusion

Perte de prédiction du bruit

Les modèles apprennent à débruiter le bruit gaussien ajouté selon un calendrier de diffusion. Certaines variantes utilisent la prédiction de vélocité (par exemple, v-prediction dans Stable Diffusion v2) ou des objectifs hybrides :

Techniques d'optimisation

L'entraînement des modèles génératifs est souvent instable et sensible aux hyperparamètres. Plusieurs techniques sont utilisées pour garantir la convergence et la qualité.

Optimiseurs et planificateurs

Adam / AdamW : les optimiseurs de gradient adaptatif sont la norme de facto. Utiliser $\beta_1=0.5,\ \beta_2=0.999$ pour les GAN ;
RMSprop : parfois utilisé dans les variantes de WGAN ;
Planification du taux d'apprentissage :
- Phases de warm-up pour les transformers et les modèles de diffusion ;
- Décroissance cosinus ou ReduceLROnPlateau pour une convergence stable.

Méthodes de stabilisation

Clipping du gradient : éviter l'explosion des gradients dans les RNN ou les UNet profonds ;

Normalisation spectrale : appliquée aux couches du discriminateur dans les GANs pour imposer des contraintes de Lipschitz ;

Lissage des étiquettes : adoucit les étiquettes strictes (par exemple, réel = 0,9 au lieu de 1,0) afin de réduire la surconfiance ;
Règle de mise à jour à deux échelles de temps (TTUR) : utilise des taux d'apprentissage différents pour le générateur et le discriminateur afin d'améliorer la convergence ;
Entraînement en précision mixte : exploite le FP16 (via NVIDIA Apex ou PyTorch AMP) pour un entraînement plus rapide sur les GPU modernes.

Remarque

Surveiller séparément les pertes du générateur et du discriminateur. Utiliser périodiquement des métriques telles que FID ou IS pour évaluer la qualité réelle des sorties plutôt que de se fier uniquement aux valeurs de perte.

Ajustement fin des modèles génératifs pré-entraînés

Les modèles génératifs pré-entraînés (par exemple, Stable Diffusion, LLaMA, StyleGAN2) peuvent être ajustés pour des tâches spécifiques à un domaine en utilisant des stratégies d'entraînement allégées.

Techniques d'apprentissage par transfert

Ajustement complet : réentraîner tous les poids du modèle. Coût de calcul élevé mais flexibilité maximale ;

Refroidissement des couches / dégel progressif : commencer par geler la plupart des couches, puis dégeler progressivement certaines couches pour un meilleur ajustement fin. Cela permet d'éviter l'oubli catastrophique. Geler les premières couches permet de conserver les caractéristiques générales issues du pré-entraînement (comme les contours ou les motifs de mots), tandis que dégeler les couches ultérieures permet au modèle d'apprendre des caractéristiques spécifiques à la tâche ;

LoRA / couches adaptatrices : injection de couches entraînables à faible rang sans mise à jour des paramètres du modèle de base ;

DreamBooth / inversion textuelle (modèles de diffusion) :
- Ajustement fin sur un petit nombre d’images spécifiques au sujet.
- Utilisation du pipeline diffusers :

Ajustement de prompt / p-tuning :

Cas d'utilisation courants

Adaptation de style : ajustement fin sur des ensembles de données d'anime, de bande dessinée ou artistiques ;
Ajustement spécifique à l'industrie : adaptation des LLM aux domaines juridiques, médicaux ou d'entreprise ;
Personnalisation : conditionnement d'identité ou de voix personnalisé à l'aide de petits ensembles de référence.

Remarque

Utiliser Hugging Face PEFT pour les méthodes basées sur LoRA/adaptateur, et la bibliothèque Diffusers pour des pipelines d'ajustement fin légers avec prise en charge intégrée de DreamBooth et de la guidance sans classificateur.

Résumé

Utiliser des fonctions de perte spécifiques au modèle qui correspondent aux objectifs d'entraînement et à la structure du modèle ;
Optimiser avec des méthodes adaptatives, des techniques de stabilisation et une planification efficace ;
Ajuster finement les modèles préentraînés en utilisant des stratégies modernes de transfert à faible rang ou basées sur des prompts afin de réduire les coûts et d'augmenter l'adaptabilité au domaine.

1. Quel est l'objectif principal de l'utilisation des techniques de régularisation pendant l'entraînement ?

2. Lequel des optimiseurs suivants est couramment utilisé pour l'entraînement des modèles d'apprentissage profond et adapte le taux d'apprentissage pendant l'entraînement ?

3. Quel est le principal défi lors de l'entraînement des modèles génératifs, en particulier dans le contexte des GANs (Generative Adversarial Networks) ?

Quel est l'objectif principal de l'utilisation des techniques de régularisation pendant l'entraînement ?

Select the correct answer

Augmenter la taille du jeu de données d'entraînement.

Prévenir le surapprentissage en pénalisant les modèles trop complexes.

Accélérer le processus d'apprentissage.

Réduire le coût computationnel pendant l'entraînement.

Lequel des optimiseurs suivants est couramment utilisé pour l'entraînement des modèles d'apprentissage profond et adapte le taux d'apprentissage pendant l'entraînement ?

Select the correct answer

Stochastic Gradient Descent (SGD)

Adam

Adagrad

Momentum

Quel est le principal défi lors de l'entraînement des modèles génératifs, en particulier dans le contexte des GANs (Generative Adversarial Networks) ?

Select the correct answer

Difficulté à équilibrer l'entraînement du générateur et du discriminateur

Convergence lente due à de petits gradients

Incapacité à évaluer quantitativement la performance du modèle

Surapprentissage du modèle discriminateur

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 3. Chapitre 2

Demandez à l'IA

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Awesome!

Completion rate improved to 4.76

Formation et Optimisation

Glissez pour afficher le menu

Fonctions de perte principales

Différentes familles de modèles génératifs utilisent des formulations de perte distinctes selon la manière dont elles modélisent les distributions de données.

Pertes des GAN

Perte minimax (GAN original)

Configuration adversariale entre le générateur $G$ et le discriminateur $D$ (exemple avec la bibliothèque pythorch) :

Least squares GAN (LSGAN)

Utilise la perte L2 au lieu de la perte logarithmique afin d'améliorer la stabilité et le flux du gradient :

Wasserstein GAN (WGAN)

Minimise la distance Earth Mover (EM) ; remplace le discriminateur par un « critique » et utilise le découpage des poids ou une pénalité de gradient pour assurer la continuité de Lipschitz :

Perte VAE

Evidence Lower Bound (ELBO)

Combine la reconstruction et la régularisation. Le terme de divergence KL encourage la postérieure latente à rester proche de la distribution a priori (généralement normale standard) :

Fonctions de perte pour les modèles de diffusion

Perte de prédiction du bruit

Techniques d'optimisation

L'entraînement des modèles génératifs est souvent instable et sensible aux hyperparamètres. Plusieurs techniques sont utilisées pour garantir la convergence et la qualité.

Optimiseurs et planificateurs

Adam / AdamW : les optimiseurs de gradient adaptatif sont la norme de facto. Utiliser $\beta_1=0.5,\ \beta_2=0.999$ pour les GAN ;
RMSprop : parfois utilisé dans les variantes de WGAN ;
Planification du taux d'apprentissage :
- Phases de warm-up pour les transformers et les modèles de diffusion ;
- Décroissance cosinus ou ReduceLROnPlateau pour une convergence stable.

Méthodes de stabilisation

Clipping du gradient : éviter l'explosion des gradients dans les RNN ou les UNet profonds ;

Normalisation spectrale : appliquée aux couches du discriminateur dans les GANs pour imposer des contraintes de Lipschitz ;

Lissage des étiquettes : adoucit les étiquettes strictes (par exemple, réel = 0,9 au lieu de 1,0) afin de réduire la surconfiance ;
Règle de mise à jour à deux échelles de temps (TTUR) : utilise des taux d'apprentissage différents pour le générateur et le discriminateur afin d'améliorer la convergence ;
Entraînement en précision mixte : exploite le FP16 (via NVIDIA Apex ou PyTorch AMP) pour un entraînement plus rapide sur les GPU modernes.

Remarque

Ajustement fin des modèles génératifs pré-entraînés

Techniques d'apprentissage par transfert

Ajustement complet : réentraîner tous les poids du modèle. Coût de calcul élevé mais flexibilité maximale ;

Refroidissement des couches / dégel progressif : commencer par geler la plupart des couches, puis dégeler progressivement certaines couches pour un meilleur ajustement fin. Cela permet d'éviter l'oubli catastrophique. Geler les premières couches permet de conserver les caractéristiques générales issues du pré-entraînement (comme les contours ou les motifs de mots), tandis que dégeler les couches ultérieures permet au modèle d'apprendre des caractéristiques spécifiques à la tâche ;

LoRA / couches adaptatrices : injection de couches entraînables à faible rang sans mise à jour des paramètres du modèle de base ;

DreamBooth / inversion textuelle (modèles de diffusion) :
- Ajustement fin sur un petit nombre d’images spécifiques au sujet.
- Utilisation du pipeline diffusers :

Ajustement de prompt / p-tuning :

Cas d'utilisation courants

Adaptation de style : ajustement fin sur des ensembles de données d'anime, de bande dessinée ou artistiques ;
Ajustement spécifique à l'industrie : adaptation des LLM aux domaines juridiques, médicaux ou d'entreprise ;
Personnalisation : conditionnement d'identité ou de voix personnalisé à l'aide de petits ensembles de référence.

Remarque

Résumé

Utiliser des fonctions de perte spécifiques au modèle qui correspondent aux objectifs d'entraînement et à la structure du modèle ;
Optimiser avec des méthodes adaptatives, des techniques de stabilisation et une planification efficace ;
Ajuster finement les modèles préentraînés en utilisant des stratégies modernes de transfert à faible rang ou basées sur des prompts afin de réduire les coûts et d'augmenter l'adaptabilité au domaine.

1. Quel est l'objectif principal de l'utilisation des techniques de régularisation pendant l'entraînement ?

2. Lequel des optimiseurs suivants est couramment utilisé pour l'entraînement des modèles d'apprentissage profond et adapte le taux d'apprentissage pendant l'entraînement ?

3. Quel est le principal défi lors de l'entraînement des modèles génératifs, en particulier dans le contexte des GANs (Generative Adversarial Networks) ?

Quel est l'objectif principal de l'utilisation des techniques de régularisation pendant l'entraînement ?

Select the correct answer

Augmenter la taille du jeu de données d'entraînement.

Prévenir le surapprentissage en pénalisant les modèles trop complexes.

Accélérer le processus d'apprentissage.

Réduire le coût computationnel pendant l'entraînement.

Lequel des optimiseurs suivants est couramment utilisé pour l'entraînement des modèles d'apprentissage profond et adapte le taux d'apprentissage pendant l'entraînement ?

Select the correct answer

Stochastic Gradient Descent (SGD)

Adam

Adagrad

Momentum

Quel est le principal défi lors de l'entraînement des modèles génératifs, en particulier dans le contexte des GANs (Generative Adversarial Networks) ?

Select the correct answer

Difficulté à équilibrer l'entraînement du générateur et du discriminateur

Convergence lente due à de petits gradients

Incapacité à évaluer quantitativement la performance du modèle

Surapprentissage du modèle discriminateur

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 3. Chapitre 2