Apprendre SARSA : Apprentissage TD Sur Politique | Apprentissage par Différence Temporelle

Tout comme avec les méthodes de Monte Carlo, il est possible de suivre le cadre de la généralisation de l’itération de politique (GPI) pour passer de l’estimation des fonctions de valeur à l’apprentissage de politiques optimales. Cependant, ce processus introduit un défi bien connu : le compromis exploration-exploitation. De même, deux approches peuvent être utilisées : on-policy et off-policy. Commençons par la méthode on-policy — SARSA.

Définition

SARSA est un algorithme de contrôle TD on-policy utilisé pour estimer la fonction de valeur d’action $q_\pi(s, a)$ . Il met à jour ses estimations en fonction de l’action effectivement réalisée, ce qui en fait un algorithme on-policy.

L’acronyme SARSA provient des cinq éléments clés utilisés lors de la mise à jour :

S : état courant $S_t$ ;
A : action réalisée $A_t$ ;
R : récompense reçue $R_{t+1}$ ;
S : état suivant $S_{t+1}$ ;
A : action suivante $A_{t+1}$ .

Règle de mise à jour

La règle de mise à jour est similaire à TD(0), mais remplace la fonction de valeur d'état par la fonction de valeur d'action :

Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma Q(S_{t+1}, A_{t+1}) - Q(S_t, A_t)\Bigr)

Le $A_{t+1}$ correspond à l'action réellement effectuée à l'étape suivante, sélectionnée selon la politique actuelle. Cela signifie que les effets de l'exploration sont intégrés dans le processus d'apprentissage.

Après chaque mise à jour de la fonction de valeur d'action, la politique est également mise à jour, permettant à l'agent d'utiliser immédiatement les nouvelles estimations.

Pseudocode

Quand utiliser SARSA ?

SARSA est préférable lorsque :

Vous traitez avec des environnements à forte stochasticité (par exemple, surfaces glissantes, transitions peu fiables) ;
Une convergence plus lente est acceptable en échange d’un comportement plus sûr pendant l’apprentissage.

Tout était clair ?

Merci pour vos commentaires !

Section 5. Chapitre 3

Demandez à l'IA

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Suggested prompts:

Can you explain the difference between SARSA and Q-learning?

How does the exploration-exploitation tradeoff affect SARSA?

Can you give an example of when SARSA would be better than other methods?

Glissez pour afficher le menu