Généralisation de l’Apprentissage TD
Jusqu'à présent, nous avons considéré deux cas extrêmes d'apprentissage par l'expérience :
- TD(0) : utilise le retour à un pas ;
- Monte Carlo : attend la fin de l'épisode pour calculer le retour.
Mais que faire si l'on souhaite une approche intermédiaire ? Une méthode qui exploite davantage d'informations futures que TD(0), sans attendre la fin complète de l'épisode comme Monte Carlo ?
C'est ici qu'interviennent l'apprentissage TD à n-pas et TD(λ) — des méthodes qui unifient et généralisent les concepts étudiés jusqu'à présent.
n-Pas TD Learning
Le principe de l'apprentissage TD à n-pas est simple : au lieu d'utiliser uniquement l'étape suivante ou l'ensemble de l'épisode, on utilise les n prochaines étapes, puis on effectue un bootstrap :
Gt(n)=Rt+1+γRt+2+...+γn−1Rt+n+γnV(St+1)Cela permet un compromis :
- Lorsque n=1 : il s'agit simplement de TD(0) ;
- Lorsque n=∞ : cela devient Monte Carlo.
Ces retours peuvent alors être utilisés pour remplacer la cible dans la règle de mise à jour TD(0) :
V(St)←V(St)+α(Gt(n)−V(St))TD(λ)
TD(λ) est une idée ingénieuse qui s'appuie sur l'apprentissage TD à n étapes : au lieu de choisir un n fixe, on combine tous les retours à n étapes ensemble :
Lt=(1−λ)n=0∑∞λn−1Gt(n)où λ∈[0,1] contrôle la pondération :
- Si λ=0 : seul le retour à une étape → TD(0) ;
- Si λ=1 : retour complet → Monte Carlo ;
- Les valeurs intermédiaires mélangent plusieurs retours à différentes étapes.
Ainsi, λ agit comme un paramètre d'ajustement du compromis biais-variance :
- Faible λ : plus de biais, moins de variance ;
- Fort λ : moins de biais, plus de variance.
Lt peut alors être utilisé comme cible de mise à jour dans la règle de mise à jour TD(0) :
V(St)←V(St)+α(Lt−V(St))Merci pour vos commentaires !
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion
Can you explain how to choose the best value for $$n$$ or $$\lambda$$ in practice?
What are the main advantages and disadvantages of using TD($$\lambda$$) compared to TD(0) and Monte Carlo?
Can you provide an example to illustrate how $$n$$-step TD learning works?
Awesome!
Completion rate improved to 2.7
Généralisation de l’Apprentissage TD
Glissez pour afficher le menu
Jusqu'à présent, nous avons considéré deux cas extrêmes d'apprentissage par l'expérience :
- TD(0) : utilise le retour à un pas ;
- Monte Carlo : attend la fin de l'épisode pour calculer le retour.
Mais que faire si l'on souhaite une approche intermédiaire ? Une méthode qui exploite davantage d'informations futures que TD(0), sans attendre la fin complète de l'épisode comme Monte Carlo ?
C'est ici qu'interviennent l'apprentissage TD à n-pas et TD(λ) — des méthodes qui unifient et généralisent les concepts étudiés jusqu'à présent.
n-Pas TD Learning
Le principe de l'apprentissage TD à n-pas est simple : au lieu d'utiliser uniquement l'étape suivante ou l'ensemble de l'épisode, on utilise les n prochaines étapes, puis on effectue un bootstrap :
Gt(n)=Rt+1+γRt+2+...+γn−1Rt+n+γnV(St+1)Cela permet un compromis :
- Lorsque n=1 : il s'agit simplement de TD(0) ;
- Lorsque n=∞ : cela devient Monte Carlo.
Ces retours peuvent alors être utilisés pour remplacer la cible dans la règle de mise à jour TD(0) :
V(St)←V(St)+α(Gt(n)−V(St))TD(λ)
TD(λ) est une idée ingénieuse qui s'appuie sur l'apprentissage TD à n étapes : au lieu de choisir un n fixe, on combine tous les retours à n étapes ensemble :
Lt=(1−λ)n=0∑∞λn−1Gt(n)où λ∈[0,1] contrôle la pondération :
- Si λ=0 : seul le retour à une étape → TD(0) ;
- Si λ=1 : retour complet → Monte Carlo ;
- Les valeurs intermédiaires mélangent plusieurs retours à différentes étapes.
Ainsi, λ agit comme un paramètre d'ajustement du compromis biais-variance :
- Faible λ : plus de biais, moins de variance ;
- Fort λ : moins de biais, plus de variance.
Lt peut alors être utilisé comme cible de mise à jour dans la règle de mise à jour TD(0) :
V(St)←V(St)+α(Lt−V(St))Merci pour vos commentaires !