Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre TD(0) : Estimation de la Fonction de Valeur | Apprentissage par Différence Temporelle
Introduction à l'Apprentissage par Renforcement

bookTD(0) : Estimation de la Fonction de Valeur

La version la plus simple de l'apprentissage par différence temporelle est appelée TD(0). Elle met à jour la valeur d'un état en fonction de la récompense immédiate et de la valeur estimée de l'état suivant. Il s'agit d'une méthode TD à un seul pas.

Règle de mise à jour

Étant donné un état StS_t, une récompense Rt+1R_{t+1} et l'état suivant St+1S_{t+1}, la règle de mise à jour s'écrit :

V(St)V(St)+α(Rt+1+γV(St+1)V(St))V(S_t) \gets V(S_t) + \alpha\Bigl(R_{t+1}+\gamma V(S_{t+1}) - V(S_t)\Bigr)

  • α\alpha est le taux d'apprentissage, ou taille du pas ;
  • δt=Rt+1+γV(St+1)V(St)\delta_t = R_{t+1}+\gamma V(S_{t+1}) - V(S_t) est l'erreur TD.

Intuition

La fonction de valeur d'état vπv_\pi peut être définie et développée comme suit :

vπ(s)=Eπ[GtSt=s]=Eπ[Rt+γGt+1St=s]=Eπ[Rt+γvπ(St+1)St=s]\def\E{\operatorname{\mathbb{E}}} \begin{aligned} v_\pi(s) &= \E_\pi[G_t | S_t = s] \\ &= \E_\pi[R_t + \gamma G_{t+1} | S_t = s] \\ &= \E_\pi[R_t + \gamma v_\pi(S_{t+1}) | S_t = s] \end{aligned}

Cela donne la première partie de δt\delta_t — le retour expérimenté Rt+1+γV(St+1)R_{t+1} + \gamma V(S_{t+1}). Et la seconde partie de δt\delta_t est le retour attendu V(St)V(S_t). L'erreur TD δt\delta_t​ représente donc l'écart observable entre ce qui s'est réellement produit et ce que l'on croyait auparavant. Ainsi, la règle de mise à jour ajuste légèrement la croyance précédente à chaque étape, la rapprochant de la réalité.

TD(0) vs Estimation Monte Carlo

TD(0) et l'estimation Monte Carlo utilisent tous deux des expériences échantillonnées pour estimer la fonction de valeur d'état vπ(s)v_\pi(s) pour une politique π\pi. Sous des conditions de convergence standard, ils convergent tous deux vers la véritable valeur vπ(s)v_\pi(s) lorsque le nombre de visites de chaque état tend vers l'infini. En pratique, cependant, la quantité de données disponibles est toujours finie, et les deux méthodes diffèrent significativement dans leur utilisation de ces données et dans la rapidité de leur apprentissage.

Compromis Biais-Variance

Du point de vue du compromis biais–variance :

L’estimation Monte Carlo attend la fin d’un épisode puis utilise le retour complet pour mettre à jour les valeurs. Cela produit des estimations non biaisées — les retours reflètent réellement la distribution sous-jacente — mais elles peuvent varier fortement, en particulier dans des tâches longues ou très stochastiques. Une variance élevée implique qu’un grand nombre d’épisodes est nécessaire pour lisser le bruit et obtenir des estimations de valeur stables.

TD(0) utilise le bootstrap en combinant chaque récompense à un pas avec l’estimation actuelle de la valeur de l’état suivant. Cela introduit un biais — les premières mises à jour reposent sur des estimations imparfaites — mais maintient une variance faible, puisque chaque mise à jour se base sur une petite erreur incrémentale. Une variance plus faible permet à TD(0) de propager l’information de récompense à travers l’espace d’états plus rapidement, même si le biais initial peut ralentir la convergence.

Données d’apprentissage vs Modélisation de l’environnement

Une autre façon d’analyser ces deux méthodes consiste à examiner ce que chacune apprend réellement :

L’estimation Monte Carlo apprend directement à partir des retours observés, ajustant effectivement ses estimations de valeur aux épisodes spécifiques rencontrés. Cela signifie qu’elle minimise l’erreur sur ces trajectoires d’entraînement, mais comme elle ne construit jamais de vue explicite sur la manière dont les états se succèdent, elle peut avoir du mal à généraliser à de nouvelles situations ou à des variations.

TD(0), en revanche, utilise le bootstrap à chaque transition d’un pas, combinant la récompense immédiate avec son estimation de la valeur de l’état suivant. Ce faisant, il capture effectivement les relations entre les états — un modèle implicite de la dynamique de l’environnement. Cette compréhension proche d’un modèle permet à TD(0) de mieux généraliser à des transitions non observées, produisant souvent des estimations de valeur plus précises sur de nouvelles données.

Pseudocode

question mark

Comment pouvez-vous décrire le TD(0) en termes de biais et de variance ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 5. Chapitre 2

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Awesome!

Completion rate improved to 2.7

bookTD(0) : Estimation de la Fonction de Valeur

Glissez pour afficher le menu

La version la plus simple de l'apprentissage par différence temporelle est appelée TD(0). Elle met à jour la valeur d'un état en fonction de la récompense immédiate et de la valeur estimée de l'état suivant. Il s'agit d'une méthode TD à un seul pas.

Règle de mise à jour

Étant donné un état StS_t, une récompense Rt+1R_{t+1} et l'état suivant St+1S_{t+1}, la règle de mise à jour s'écrit :

V(St)V(St)+α(Rt+1+γV(St+1)V(St))V(S_t) \gets V(S_t) + \alpha\Bigl(R_{t+1}+\gamma V(S_{t+1}) - V(S_t)\Bigr)

  • α\alpha est le taux d'apprentissage, ou taille du pas ;
  • δt=Rt+1+γV(St+1)V(St)\delta_t = R_{t+1}+\gamma V(S_{t+1}) - V(S_t) est l'erreur TD.

Intuition

La fonction de valeur d'état vπv_\pi peut être définie et développée comme suit :

vπ(s)=Eπ[GtSt=s]=Eπ[Rt+γGt+1St=s]=Eπ[Rt+γvπ(St+1)St=s]\def\E{\operatorname{\mathbb{E}}} \begin{aligned} v_\pi(s) &= \E_\pi[G_t | S_t = s] \\ &= \E_\pi[R_t + \gamma G_{t+1} | S_t = s] \\ &= \E_\pi[R_t + \gamma v_\pi(S_{t+1}) | S_t = s] \end{aligned}

Cela donne la première partie de δt\delta_t — le retour expérimenté Rt+1+γV(St+1)R_{t+1} + \gamma V(S_{t+1}). Et la seconde partie de δt\delta_t est le retour attendu V(St)V(S_t). L'erreur TD δt\delta_t​ représente donc l'écart observable entre ce qui s'est réellement produit et ce que l'on croyait auparavant. Ainsi, la règle de mise à jour ajuste légèrement la croyance précédente à chaque étape, la rapprochant de la réalité.

TD(0) vs Estimation Monte Carlo

TD(0) et l'estimation Monte Carlo utilisent tous deux des expériences échantillonnées pour estimer la fonction de valeur d'état vπ(s)v_\pi(s) pour une politique π\pi. Sous des conditions de convergence standard, ils convergent tous deux vers la véritable valeur vπ(s)v_\pi(s) lorsque le nombre de visites de chaque état tend vers l'infini. En pratique, cependant, la quantité de données disponibles est toujours finie, et les deux méthodes diffèrent significativement dans leur utilisation de ces données et dans la rapidité de leur apprentissage.

Compromis Biais-Variance

Du point de vue du compromis biais–variance :

L’estimation Monte Carlo attend la fin d’un épisode puis utilise le retour complet pour mettre à jour les valeurs. Cela produit des estimations non biaisées — les retours reflètent réellement la distribution sous-jacente — mais elles peuvent varier fortement, en particulier dans des tâches longues ou très stochastiques. Une variance élevée implique qu’un grand nombre d’épisodes est nécessaire pour lisser le bruit et obtenir des estimations de valeur stables.

TD(0) utilise le bootstrap en combinant chaque récompense à un pas avec l’estimation actuelle de la valeur de l’état suivant. Cela introduit un biais — les premières mises à jour reposent sur des estimations imparfaites — mais maintient une variance faible, puisque chaque mise à jour se base sur une petite erreur incrémentale. Une variance plus faible permet à TD(0) de propager l’information de récompense à travers l’espace d’états plus rapidement, même si le biais initial peut ralentir la convergence.

Données d’apprentissage vs Modélisation de l’environnement

Une autre façon d’analyser ces deux méthodes consiste à examiner ce que chacune apprend réellement :

L’estimation Monte Carlo apprend directement à partir des retours observés, ajustant effectivement ses estimations de valeur aux épisodes spécifiques rencontrés. Cela signifie qu’elle minimise l’erreur sur ces trajectoires d’entraînement, mais comme elle ne construit jamais de vue explicite sur la manière dont les états se succèdent, elle peut avoir du mal à généraliser à de nouvelles situations ou à des variations.

TD(0), en revanche, utilise le bootstrap à chaque transition d’un pas, combinant la récompense immédiate avec son estimation de la valeur de l’état suivant. Ce faisant, il capture effectivement les relations entre les états — un modèle implicite de la dynamique de l’environnement. Cette compréhension proche d’un modèle permet à TD(0) de mieux généraliser à des transitions non observées, produisant souvent des estimations de valeur plus précises sur de nouvelles données.

Pseudocode

question mark

Comment pouvez-vous décrire le TD(0) en termes de biais et de variance ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 5. Chapitre 2
some-alt