Contenu du cours
Introduction à l'Apprentissage par Renforcement
Introduction à l'Apprentissage par Renforcement
Généralisation de l’Apprentissage TD
Jusqu'à présent, nous avons considéré deux cas extrêmes d'apprentissage par l'expérience :
- TD(0) : utilise le retour à un pas ;
- Monte Carlo : attend la fin de l'épisode pour calculer le retour.
Mais que faire si l'on souhaite une approche intermédiaire ? Une méthode qui exploite davantage d'informations futures que TD(0), sans attendre la fin complète de l'épisode comme Monte Carlo ?
C'est ici qu'interviennent l'apprentissage TD à -pas et TD() — des méthodes qui unifient et généralisent les concepts étudiés jusqu'à présent.
-Pas TD Learning
Le principe de l'apprentissage TD à -pas est simple : au lieu d'utiliser uniquement l'étape suivante ou l'ensemble de l'épisode, on utilise les prochaines étapes, puis on effectue un bootstrap :
Cela permet un compromis :
- Lorsque : il s'agit simplement de TD(0) ;
- Lorsque : cela devient Monte Carlo.
Ces retours peuvent alors être utilisés pour remplacer la cible dans la règle de mise à jour TD(0) :
TD()
TD() est une idée ingénieuse qui s'appuie sur l'apprentissage TD à étapes : au lieu de choisir un fixe, on combine tous les retours à étapes ensemble :
où contrôle la pondération :
- Si : seul le retour à une étape TD(0) ;
- Si : retour complet Monte Carlo ;
- Les valeurs intermédiaires mélangent plusieurs retours à différentes étapes.
Ainsi, agit comme un paramètre d'ajustement du compromis biais-variance :
- Faible : plus de biais, moins de variance ;
- Fort : moins de biais, plus de variance.
peut alors être utilisé comme cible de mise à jour dans la règle de mise à jour TD(0) :
Merci pour vos commentaires !