SARSA : Apprentissage TD Sur Politique
Tout comme avec les méthodes de Monte Carlo, il est possible de suivre le cadre du generalized policy iteration (GPI) pour passer de l'estimation des fonctions de valeur à l'apprentissage de politiques optimales. Cependant, ce processus introduit un défi bien connu : le compromis exploration-exploitation. De même, deux approches peuvent être utilisées : on-policy et off-policy. Commençons par la méthode on-policy — SARSA.
SARSA est un algorithme de contrôle TD on-policy utilisé pour estimer la fonction de valeur d'action qπ(s,a). Il met à jour ses estimations en fonction de l'action effectivement réalisée, ce qui en fait un algorithme on-policy.
L'acronyme SARSA provient des cinq éléments clés utilisés lors de la mise à jour :
- S : état courant St ;
- A : action effectuée At ;
- R : récompense reçue Rt+1 ;
- S : état suivant St+1 ;
- A : action suivante At+1.
Règle de mise à jour
La règle de mise à jour est similaire à TD(0), à la différence que la fonction de valeur d'état est remplacée par la fonction de valeur d'action :
Q(St,At)←Q(St,At)+α(Rt+1+γQ(St+1,At+1)−Q(St,At))Le At+1 est l'action qui sera effectivement prise à l'étape suivante, et elle est sélectionnée selon la politique actuelle. Cela signifie que les effets de l'exploration sont intégrés dans le processus d'apprentissage.
Après chaque mise à jour de la fonction de valeur d'action, la politique est également mise à jour, permettant à l'agent d'utiliser immédiatement les nouvelles estimations.
Pseudocode
Quand utiliser SARSA ?
SARSA est préférable lorsque :
- Vous traitez avec des environnements à forte stochasticité (par exemple, surfaces glissantes, transitions peu fiables) ;
- Une convergence plus lente est acceptable en échange d’un comportement plus sûr pendant l’apprentissage.
Merci pour vos commentaires !
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion
Awesome!
Completion rate improved to 2.7
SARSA : Apprentissage TD Sur Politique
Glissez pour afficher le menu
Tout comme avec les méthodes de Monte Carlo, il est possible de suivre le cadre du generalized policy iteration (GPI) pour passer de l'estimation des fonctions de valeur à l'apprentissage de politiques optimales. Cependant, ce processus introduit un défi bien connu : le compromis exploration-exploitation. De même, deux approches peuvent être utilisées : on-policy et off-policy. Commençons par la méthode on-policy — SARSA.
SARSA est un algorithme de contrôle TD on-policy utilisé pour estimer la fonction de valeur d'action qπ(s,a). Il met à jour ses estimations en fonction de l'action effectivement réalisée, ce qui en fait un algorithme on-policy.
L'acronyme SARSA provient des cinq éléments clés utilisés lors de la mise à jour :
- S : état courant St ;
- A : action effectuée At ;
- R : récompense reçue Rt+1 ;
- S : état suivant St+1 ;
- A : action suivante At+1.
Règle de mise à jour
La règle de mise à jour est similaire à TD(0), à la différence que la fonction de valeur d'état est remplacée par la fonction de valeur d'action :
Q(St,At)←Q(St,At)+α(Rt+1+γQ(St+1,At+1)−Q(St,At))Le At+1 est l'action qui sera effectivement prise à l'étape suivante, et elle est sélectionnée selon la politique actuelle. Cela signifie que les effets de l'exploration sont intégrés dans le processus d'apprentissage.
Après chaque mise à jour de la fonction de valeur d'action, la politique est également mise à jour, permettant à l'agent d'utiliser immédiatement les nouvelles estimations.
Pseudocode
Quand utiliser SARSA ?
SARSA est préférable lorsque :
- Vous traitez avec des environnements à forte stochasticité (par exemple, surfaces glissantes, transitions peu fiables) ;
- Une convergence plus lente est acceptable en échange d’un comportement plus sûr pendant l’apprentissage.
Merci pour vos commentaires !