Contenu du cours
Introduction à l'Apprentissage par Renforcement
Introduction à l'Apprentissage par Renforcement
Qu'est-ce que l'apprentissage par différence temporelle ?
La programmation dynamique et les méthodes de Monte Carlo présentent toutes deux des avantages notables ainsi que des inconvénients majeurs.
Programmation dynamique
La programmation dynamique permet de calculer efficacement la fonction de valeur d'état et d'en déduire une politique optimale. Elle utilise le bootstrapping — calcul de la valeur de l'état actuel à partir des valeurs des états futurs — pour atteindre cet objectif.
Bien que le concept de bootstrapping soit puissant, la programmation dynamique présente deux inconvénients majeurs :
- Elle nécessite un modèle complet et explicite de l'environnement ;
- Les valeurs d'état sont calculées pour chaque état, même si l'état est très éloigné du chemin optimal.
Méthodes de Monte Carlo
Les méthodes de Monte Carlo corrigent les deux inconvénients de la programmation dynamique :
- Absence de nécessité d’un modèle, car l’apprentissage se fait à partir de l’expérience ;
- L’apprentissage basé sur l’expérience limite l’exploration, ce qui fait que les états non importants sont rarement visités.
Cependant, elles introduisent un nouvel inconvénient : le processus d’apprentissage n’a lieu qu’après la conclusion de l’épisode. Cela limite l’applicabilité des méthodes de Monte Carlo aux tâches épisodiques de petite taille, car les tâches plus grandes nécessiteraient un nombre d’actions extrêmement élevé avant la fin de l’épisode.
Apprentissage par différence temporelle
L'apprentissage par différence temporelle (TD) résulte de la combinaison des idées issues à la fois de la programmation dynamique et des méthodes de Monte Carlo. Il adopte l'apprentissage par l'expérience des méthodes de Monte Carlo et le combine avec le bootstrap de la programmation dynamique.
En conséquence, l'apprentissage TD corrige les principaux problèmes rencontrés par les deux méthodes :
- L'apprentissage par l'expérience résout le problème de la nécessité d'un modèle et celui des espaces d'états volumineux ;
- Le bootstrap résout le problème de l'apprentissage épisodique.
Fonctionnement
L'apprentissage par différence temporelle (TD) fonctionne selon une boucle simple :
- Estimation de la valeur : l'agent commence avec une estimation initiale de la qualité de l'état actuel ;
- Exécution d'une action : il effectue une action, reçoit une récompense et se retrouve dans un nouvel état ;
- Mise à jour de l'estimation : en utilisant la récompense et la valeur du nouvel état, l'agent ajuste légèrement son estimation initiale pour la rendre plus précise ;
- Répétition : au fil du temps, en répétant cette boucle, l'agent construit progressivement des estimations de valeur meilleures et plus précises pour différents états.
Tableau comparatif
Merci pour vos commentaires !