Contenu du cours
Introduction à l'Apprentissage par Renforcement
Introduction à l'Apprentissage par Renforcement
SARSA : Apprentissage TD Sur Politique
Tout comme avec les méthodes de Monte Carlo, nous pouvons suivre le cadre de la généralisation de l’itération de politique (GPI) pour passer de l’estimation des fonctions de valeur à l’apprentissage de politiques optimales. Cependant, ce processus introduit un défi bien connu : le compromis exploration-exploitation. De même, il existe deux approches possibles : on-policy et off-policy. Commençons par la méthode on-policy — SARSA.
SARSA est un algorithme de contrôle TD on-policy utilisé pour estimer la fonction de valeur d’action . Il met à jour ses estimations en fonction de l’action effectivement réalisée, ce qui en fait un algorithme on-policy.
L’acronyme SARSA provient des cinq éléments clés utilisés lors de la mise à jour :
- S : état courant ;
- A : action effectuée ;
- R : récompense reçue ;
- S : état suivant ;
- A : action suivante .
Règle de mise à jour
La règle de mise à jour est similaire à celle de TD(0), à la différence que la fonction de valeur d'état est remplacée par la fonction de valeur d'action :
Le correspond à l'action réellement effectuée à l'étape suivante, sélectionnée selon la politique actuelle. Cela signifie que les effets de l'exploration sont intégrés dans le processus d'apprentissage.
Après chaque mise à jour de la fonction de valeur d'action, la politique est également mise à jour, permettant à l'agent d'utiliser immédiatement les nouvelles estimations.
Pseudocode
Quand utiliser SARSA ?
SARSA est préférable lorsque :
- Vous traitez avec des environnements à forte stochasticité (par exemple, surfaces glissantes, transitions peu fiables) ;
- Une convergence plus lente est acceptable en échange d’un comportement plus sûr pendant l’apprentissage.
Merci pour vos commentaires !