Apprendre Généralisation de l’Apprentissage TD | Apprentissage par Différence Temporelle

Jusqu'à présent, nous avons considéré deux cas extrêmes d'apprentissage par l'expérience :

TD(0) : utilise le retour à un pas ;
Monte Carlo : attend la fin de l'épisode pour calculer le retour.

Mais que faire si l'on souhaite une solution intermédiaire ? Une méthode qui exploite davantage d'informations futures que TD(0), sans attendre la fin complète de l'épisode comme Monte Carlo ?

C'est ici qu'interviennent l'apprentissage TD à $n$ -pas et TD( $\lambda$ ) — des méthodes qui unifient et généralisent les concepts étudiés jusqu'à présent.

$\Large n$ -Pas TD Learning

Le principe de l'apprentissage TD à $n$ -pas est simple : au lieu d'utiliser uniquement l'étape suivante ou l'ensemble de l'épisode, on utilise les $n$ prochaines étapes, puis on effectue un bootstrap :

G_t^{(n)} = R_{t+1} + \gamma R_{t+2} + ... + \gamma^{n-1} R_{t+n} + \gamma^n V(S_{t+1})

Cela permet un compromis :

Lorsque $n = 1$ : il s'agit simplement de TD(0) ;
Lorsque $n = \infty$ : cela devient Monte Carlo.

Ces retours peuvent alors remplacer la cible dans la règle de mise à jour de TD(0) :

V(S_t) \gets V(S_t) + \alpha\Bigl(G_t^{(n)} - V(S_t)\Bigr)

TD( $\Large\lambda$ )

TD( $\lambda$ ) est une approche ingénieuse qui s'appuie sur l'apprentissage TD à $n$ étapes : au lieu de choisir un $n$ fixe, on combine tous les retours à $n$ étapes :

L_t = (1 - \lambda) \sum_{n=0}^{\infty} \lambda^{n-1}G_t^{(n)}

où $\lambda \in [0, 1]$ contrôle la pondération :

Si $\lambda = 0$ : seul le retour à une étape $\to$ TD(0) ;
Si $\lambda = 1$ : retour complet $\to$ Monte Carlo ;
Les valeurs intermédiaires combinent plusieurs retours à différentes étapes.

Ainsi, $\lambda$ agit comme un paramètre d'ajustement biais-variance :

Faible $\lambda$ : plus de biais, moins de variance ;
Fort $\lambda$ : moins de biais, plus de variance.

$L_t$ peut ensuite être utilisé comme cible de mise à jour dans la règle de mise à jour TD(0) :

V(S_t) \gets V(S_t) + \alpha\Bigl(L_t - V(S_t)\Bigr)

Tout était clair ?

Merci pour vos commentaires !

Section 5. Chapitre 5

Demandez à l'IA

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Suggested prompts:

Can you explain how to choose the best value for $$n$$ or $$\lambda$$ in practice?

What are the main advantages and disadvantages of using TD($$\lambda$$) compared to TD(0) and Monte Carlo?

Can you provide an example to illustrate how n-step TD learning works?

Glissez pour afficher le menu

Jusqu'à présent, nous avons considéré deux cas extrêmes d'apprentissage par l'expérience :

TD(0) : utilise le retour à un pas ;
Monte Carlo : attend la fin de l'épisode pour calculer le retour.

Mais que faire si l'on souhaite une solution intermédiaire ? Une méthode qui exploite davantage d'informations futures que TD(0), sans attendre la fin complète de l'épisode comme Monte Carlo ?

C'est ici qu'interviennent l'apprentissage TD à $n$ -pas et TD( $\lambda$ ) — des méthodes qui unifient et généralisent les concepts étudiés jusqu'à présent.

$\Large n$ -Pas TD Learning

G_t^{(n)} = R_{t+1} + \gamma R_{t+2} + ... + \gamma^{n-1} R_{t+n} + \gamma^n V(S_{t+1})

Cela permet un compromis :

Lorsque $n = 1$ : il s'agit simplement de TD(0) ;
Lorsque $n = \infty$ : cela devient Monte Carlo.

Ces retours peuvent alors remplacer la cible dans la règle de mise à jour de TD(0) :

V(S_t) \gets V(S_t) + \alpha\Bigl(G_t^{(n)} - V(S_t)\Bigr)

TD( $\Large\lambda$ )

TD( $\lambda$ ) est une approche ingénieuse qui s'appuie sur l'apprentissage TD à $n$ étapes : au lieu de choisir un $n$ fixe, on combine tous les retours à $n$ étapes :

L_t = (1 - \lambda) \sum_{n=0}^{\infty} \lambda^{n-1}G_t^{(n)}

où $\lambda \in [0, 1]$ contrôle la pondération :

Si $\lambda = 0$ : seul le retour à une étape $\to$ TD(0) ;
Si $\lambda = 1$ : retour complet $\to$ Monte Carlo ;
Les valeurs intermédiaires combinent plusieurs retours à différentes étapes.

Ainsi, $\lambda$ agit comme un paramètre d'ajustement biais-variance :

Faible $\lambda$ : plus de biais, moins de variance ;
Fort $\lambda$ : moins de biais, plus de variance.

$L_t$ peut ensuite être utilisé comme cible de mise à jour dans la règle de mise à jour TD(0) :

V(S_t) \gets V(S_t) + \alpha\Bigl(L_t - V(S_t)\Bigr)

Tout était clair ?

Merci pour vos commentaires !

Section 5. Chapitre 5

Généralisation de l’Apprentissage TD

n\Large nn-Pas TD Learning

TD(λ\Large\lambdaλ)

Généralisation de l’Apprentissage TD

n\Large nn-Pas TD Learning

TD(λ\Large\lambdaλ)

$\Large n$ -Pas TD Learning

TD( $\Large\lambda$ )

$\Large n$ -Pas TD Learning

TD( $\Large\lambda$ )