Contenu du cours
Introduction à l'Apprentissage par Renforcement
Introduction à l'Apprentissage par Renforcement
TD(0) : Estimation de la Fonction de Valeur
La version la plus simple de l'apprentissage TD est appelée TD(0). Elle met à jour la valeur d'un état en se basant sur la récompense immédiate et la valeur estimée de l'état suivant. Il s'agit d'une méthode TD à un pas.
Règle de mise à jour
Étant donné un état , une récompense et l'état suivant , la règle de mise à jour s'écrit ainsi :
où
- est le taux d'apprentissage, ou taille de pas ;
- est l'erreur TD.
Intuition
La fonction de valeur d'état peut être définie et développée comme suit :
Cela donne la première partie de — le retour expérimenté . Et la seconde partie de est le retour attendu . L'erreur TD est donc l'écart observable entre ce qui s'est réellement passé et ce que l'on croyait auparavant. Ainsi, la règle de mise à jour ajuste légèrement la croyance précédente à chaque étape, la rapprochant de la réalité.
TD(0) vs Estimation Monte Carlo
TD(0) et l'estimation Monte Carlo utilisent tous deux des expériences échantillonnées pour estimer la fonction de valeur d'état pour une politique . Sous des conditions de convergence standard, ils convergent tous deux vers la véritable valeur lorsque le nombre de visites de chaque état tend vers l'infini. En pratique, cependant, la quantité de données disponibles est toujours finie, et les deux méthodes diffèrent considérablement dans leur utilisation de ces données et dans leur rapidité d'apprentissage.
Compromis biais-variance
Du point de vue du compromis biais–variance :
L’estimation Monte Carlo attend la fin d’un épisode puis utilise le retour complet pour mettre à jour les valeurs. Cela produit des estimations non biaisées — les retours reflètent réellement la distribution sous-jacente — mais elles peuvent varier fortement, en particulier dans des tâches longues ou très stochastiques. Une variance élevée implique qu’un grand nombre d’épisodes est nécessaire pour lisser le bruit et obtenir des estimations de valeur stables.
TD(0) utilise l’amorçage en combinant chaque récompense à un pas avec l’estimation actuelle de la valeur de l’état suivant. Cela introduit un biais — les premières mises à jour reposent sur des estimations imparfaites — mais maintient la variance faible, puisque chaque mise à jour repose sur une erreur petite et incrémentale. Une variance plus faible permet à TD(0) de propager l’information de récompense plus rapidement à travers l’espace des états, même si le biais initial peut ralentir la convergence.
Données d’apprentissage vs Modèle d’apprentissage
Une autre façon d’analyser ces deux méthodes consiste à examiner ce que chacune apprend réellement :
L’estimation Monte Carlo apprend directement à partir des retours observés, ajustant effectivement ses estimations de valeur aux épisodes spécifiques rencontrés. Cela signifie qu’elle minimise l’erreur sur ces trajectoires d’entraînement, mais comme elle ne construit jamais une vue explicite des transitions entre états, elle peut avoir du mal à généraliser à de nouvelles situations ou à des variations.
TD(0), en revanche, utilise l’amorçage à chaque transition d’un pas, combinant la récompense immédiate avec son estimation de la valeur de l’état suivant. Ce faisant, il capture effectivement les relations entre états — un modèle implicite de la dynamique de l’environnement. Cette compréhension de type modèle permet à TD(0) de mieux généraliser à des transitions non observées, produisant souvent des estimations de valeur plus précises sur de nouvelles données.
Pseudocode
Merci pour vos commentaires !