Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre SARSA : Apprentissage TD Sur Politique | Apprentissage par Différence Temporelle
Introduction à l'Apprentissage par Renforcement
course content

Contenu du cours

Introduction à l'Apprentissage par Renforcement

Introduction à l'Apprentissage par Renforcement

1. Théorie Fondamentale de l'Apprentissage par Renforcement
2. Problème du Bandit Manchot
3. Programmation Dynamique
4. Méthodes de Monte Carlo
5. Apprentissage par Différence Temporelle

book
SARSA : Apprentissage TD Sur Politique

Tout comme avec les méthodes de Monte Carlo, nous pouvons suivre le cadre de la généralisation de l’itération de politique (GPI) pour passer de l’estimation des fonctions de valeur à l’apprentissage de politiques optimales. Cependant, ce processus introduit un défi bien connu : le compromis exploration-exploitation. De même, il existe deux approches possibles : on-policy et off-policy. Commençons par la méthode on-policySARSA.

Note
Définition

SARSA est un algorithme de contrôle TD on-policy utilisé pour estimer la fonction de valeur d’action qπ(s,a)q_\pi(s, a). Il met à jour ses estimations en fonction de l’action effectivement réalisée, ce qui en fait un algorithme on-policy.

L’acronyme SARSA provient des cinq éléments clés utilisés lors de la mise à jour :

  • S : état courant StS_t ;
  • A : action effectuée AtA_t ;
  • R : récompense reçue Rt+1R_{t+1} ;
  • S : état suivant St+1S_{t+1} ;
  • A : action suivante At+1A_{t+1}.

Règle de mise à jour

La règle de mise à jour est similaire à celle de TD(0), à la différence que la fonction de valeur d'état est remplacée par la fonction de valeur d'action :

Q(St,At)Q(St,At)+α(Rt+1+γQ(St+1,At+1)Q(St,At))Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma Q(S_{t+1}, A_{t+1}) - Q(S_t, A_t)\Bigr)

Le At+1A_{t+1} correspond à l'action réellement effectuée à l'étape suivante, sélectionnée selon la politique actuelle. Cela signifie que les effets de l'exploration sont intégrés dans le processus d'apprentissage.

Après chaque mise à jour de la fonction de valeur d'action, la politique est également mise à jour, permettant à l'agent d'utiliser immédiatement les nouvelles estimations.

Pseudocode

Quand utiliser SARSA ?

SARSA est préférable lorsque :

  • Vous traitez avec des environnements à forte stochasticité (par exemple, surfaces glissantes, transitions peu fiables) ;
  • Une convergence plus lente est acceptable en échange d’un comportement plus sûr pendant l’apprentissage.
question mark

Dans quel scénario SARSA est-il particulièrement préférable ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 5. Chapitre 3

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

course content

Contenu du cours

Introduction à l'Apprentissage par Renforcement

Introduction à l'Apprentissage par Renforcement

1. Théorie Fondamentale de l'Apprentissage par Renforcement
2. Problème du Bandit Manchot
3. Programmation Dynamique
4. Méthodes de Monte Carlo
5. Apprentissage par Différence Temporelle

book
SARSA : Apprentissage TD Sur Politique

Tout comme avec les méthodes de Monte Carlo, nous pouvons suivre le cadre de la généralisation de l’itération de politique (GPI) pour passer de l’estimation des fonctions de valeur à l’apprentissage de politiques optimales. Cependant, ce processus introduit un défi bien connu : le compromis exploration-exploitation. De même, il existe deux approches possibles : on-policy et off-policy. Commençons par la méthode on-policySARSA.

Note
Définition

SARSA est un algorithme de contrôle TD on-policy utilisé pour estimer la fonction de valeur d’action qπ(s,a)q_\pi(s, a). Il met à jour ses estimations en fonction de l’action effectivement réalisée, ce qui en fait un algorithme on-policy.

L’acronyme SARSA provient des cinq éléments clés utilisés lors de la mise à jour :

  • S : état courant StS_t ;
  • A : action effectuée AtA_t ;
  • R : récompense reçue Rt+1R_{t+1} ;
  • S : état suivant St+1S_{t+1} ;
  • A : action suivante At+1A_{t+1}.

Règle de mise à jour

La règle de mise à jour est similaire à celle de TD(0), à la différence que la fonction de valeur d'état est remplacée par la fonction de valeur d'action :

Q(St,At)Q(St,At)+α(Rt+1+γQ(St+1,At+1)Q(St,At))Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma Q(S_{t+1}, A_{t+1}) - Q(S_t, A_t)\Bigr)

Le At+1A_{t+1} correspond à l'action réellement effectuée à l'étape suivante, sélectionnée selon la politique actuelle. Cela signifie que les effets de l'exploration sont intégrés dans le processus d'apprentissage.

Après chaque mise à jour de la fonction de valeur d'action, la politique est également mise à jour, permettant à l'agent d'utiliser immédiatement les nouvelles estimations.

Pseudocode

Quand utiliser SARSA ?

SARSA est préférable lorsque :

  • Vous traitez avec des environnements à forte stochasticité (par exemple, surfaces glissantes, transitions peu fiables) ;
  • Une convergence plus lente est acceptable en échange d’un comportement plus sûr pendant l’apprentissage.
question mark

Dans quel scénario SARSA est-il particulièrement préférable ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 5. Chapitre 3
some-alt