Généralisation de l’Apprentissage TD
Jusqu'à présent, nous avons considéré deux cas extrêmes d'apprentissage par l'expérience :
- TD(0) : utilise le retour à un pas ;
- Monte Carlo : attend la fin de l'épisode pour calculer le retour.
Mais que faire si l'on souhaite une approche intermédiaire ? Une méthode qui exploite davantage d'informations futures que TD(0), sans attendre la fin complète de l'épisode comme Monte Carlo ?
C'est ici qu'interviennent l'apprentissage TD à n-pas et TD(λ) — des méthodes qui unifient et généralisent les concepts étudiés jusqu'à présent.
n-Pas TD Learning
Le principe de l'apprentissage TD à n-pas est simple : au lieu d'utiliser uniquement l'étape suivante ou l'ensemble de l'épisode, on utilise les n prochaines étapes, puis on effectue un bootstrap :
Gt(n)=Rt+1+γRt+2+...+γn−1Rt+n+γnV(St+1)Cela permet un compromis :
- Lorsque n=1 : il s'agit simplement de TD(0) ;
- Lorsque n=∞ : cela devient Monte Carlo.
Ces retours peuvent alors être utilisés pour remplacer la cible dans la règle de mise à jour TD(0) :
V(St)←V(St)+α(Gt(n)−V(St))TD(λ)
TD(λ) est une idée ingénieuse qui s'appuie sur l'apprentissage TD à n étapes : au lieu de choisir un n fixe, on combine tous les retours à n étapes ensemble :
Lt=(1−λ)n=0∑∞λn−1Gt(n)où λ∈[0,1] contrôle la pondération :
- Si λ=0 : seul le retour à une étape → TD(0) ;
- Si λ=1 : retour complet → Monte Carlo ;
- Les valeurs intermédiaires mélangent plusieurs retours à différentes étapes.
Ainsi, λ agit comme un paramètre d'ajustement du compromis biais-variance :
- Faible λ : plus de biais, moins de variance ;
- Fort λ : moins de biais, plus de variance.
Lt peut alors être utilisé comme cible de mise à jour dans la règle de mise à jour TD(0) :
V(St)←V(St)+α(Lt−V(St))Merci pour vos commentaires !
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion
Awesome!
Completion rate improved to 2.7
Généralisation de l’Apprentissage TD
Glissez pour afficher le menu
Jusqu'à présent, nous avons considéré deux cas extrêmes d'apprentissage par l'expérience :
- TD(0) : utilise le retour à un pas ;
- Monte Carlo : attend la fin de l'épisode pour calculer le retour.
Mais que faire si l'on souhaite une approche intermédiaire ? Une méthode qui exploite davantage d'informations futures que TD(0), sans attendre la fin complète de l'épisode comme Monte Carlo ?
C'est ici qu'interviennent l'apprentissage TD à n-pas et TD(λ) — des méthodes qui unifient et généralisent les concepts étudiés jusqu'à présent.
n-Pas TD Learning
Le principe de l'apprentissage TD à n-pas est simple : au lieu d'utiliser uniquement l'étape suivante ou l'ensemble de l'épisode, on utilise les n prochaines étapes, puis on effectue un bootstrap :
Gt(n)=Rt+1+γRt+2+...+γn−1Rt+n+γnV(St+1)Cela permet un compromis :
- Lorsque n=1 : il s'agit simplement de TD(0) ;
- Lorsque n=∞ : cela devient Monte Carlo.
Ces retours peuvent alors être utilisés pour remplacer la cible dans la règle de mise à jour TD(0) :
V(St)←V(St)+α(Gt(n)−V(St))TD(λ)
TD(λ) est une idée ingénieuse qui s'appuie sur l'apprentissage TD à n étapes : au lieu de choisir un n fixe, on combine tous les retours à n étapes ensemble :
Lt=(1−λ)n=0∑∞λn−1Gt(n)où λ∈[0,1] contrôle la pondération :
- Si λ=0 : seul le retour à une étape → TD(0) ;
- Si λ=1 : retour complet → Monte Carlo ;
- Les valeurs intermédiaires mélangent plusieurs retours à différentes étapes.
Ainsi, λ agit comme un paramètre d'ajustement du compromis biais-variance :
- Faible λ : plus de biais, moins de variance ;
- Fort λ : moins de biais, plus de variance.
Lt peut alors être utilisé comme cible de mise à jour dans la règle de mise à jour TD(0) :
V(St)←V(St)+α(Lt−V(St))Merci pour vos commentaires !