Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Équations de Bellman | Programmation Dynamique
Introduction à l'Apprentissage par Renforcement
course content

Contenu du cours

Introduction à l'Apprentissage par Renforcement

Introduction à l'Apprentissage par Renforcement

1. Théorie Fondamentale de l'Apprentissage par Renforcement
2. Problème du Bandit Manchot
3. Programmation Dynamique
4. Méthodes de Monte Carlo
5. Apprentissage par Différence Temporelle

book
Équations de Bellman

Note
Définition

Une équation de Bellman est une équation fonctionnelle qui définit une fonction de valeur sous une forme récursive.

Pour clarifier la définition :

  • Une équation fonctionnelle est une équation dont la solution est une fonction. Pour l’équation de Bellman, cette solution est la fonction de valeur pour laquelle l’équation a été formulée ;
  • Une forme récursive signifie que la valeur à l’état courant est exprimée en fonction des valeurs aux états futurs.

En résumé, résoudre l’équation de Bellman permet d’obtenir la fonction de valeur recherchée, et la dérivation de cette équation nécessite d’identifier une relation récursive entre les états courants et futurs.

Fonction de valeur d’état

Pour rappel, voici une fonction de valeur d'état sous forme compacte :

vπ(s)=Eπ[GtSt=s]\def\E{\operatorname{\mathbb{E}}} v_\pi(s) = \E_\pi[G_t | S_t = s]

Pour obtenir l’équation de Bellman pour cette fonction de valeur, développons le côté droit de l’équation et établissons une relation récursive :

vπ(s)=Eπ[GtSt=s]=Eπ[Rt+1+γRt+2+γ2Rt+3+...St=s]=Eπ[Rt+1+γk=0γkRt+k+2St=s]=Eπ[Rt+1+γGt+1St=s]=aπ(as)s,rp(s,rs,a)(r+γEπ[Gt+1St+1=s])=aπ(as)s,rp(s,rs,a)(r+γvπ(s))\def\E{\operatorname{\mathbb{E}}} \begin{aligned} v_\pi(s) &= \E_\pi[G_t | S_t = s]\\ &= \E_\pi[R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... | S_t = s]\\ &= \E_\pi[R_{t+1} + \gamma \sum_{k=0}^\infty \gamma^k R_{t+k+2} | S_t = s]\\ &= \E_\pi[R_{t+1} + \gamma G_{t+1} | S_t = s]\\ &= \sum_a \pi(a | s) \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma \E_\pi\Bigl[G_{t+1} | S_{t+1} = s'\Bigr]\Bigr)\\ &= \sum_a \pi(a | s) \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_\pi(s')\Bigr) \end{aligned}

La dernière équation de cette chaîne est une équation de Bellman pour la fonction de valeur d'état.

Intuition

Pour déterminer la valeur d’un état ss :

  1. Considérer toutes les actions possibles aa que vous pouvez entreprendre depuis cet état, chacune pondérée par la probabilité de choisir cette action selon votre politique actuelle π(as)\pi(a | s) ;
  2. Pour chaque action aa, considérer tous les états suivants possibles ss' et récompenses rr, pondérés par leur probabilité p(s,rs,a)p(s', r | s, a) ;
  3. Pour chacun de ces résultats, prendre la récompense immédiate rr obtenue, additionnée à la valeur actualisée du prochain état γvπ(s)\gamma v_\pi(s').

En additionnant toutes ces possibilités, on obtient la valeur espérée totale de l’état ss selon la politique actuelle.

Fonction de valeur d'action

Voici une fonction de valeur d'action sous forme compacte :

qπ(s,a)=Eπ[GtSt=s,At=a]\def\E{\operatorname{\mathbb{E}}} q_\pi(s, a) = \E_\pi[G_t | S_t = s, A_t = a]

La dérivation de l'équation de Bellman pour cette fonction est assez similaire à la précédente :

qπ(s,a)=Eπ[GtSt=s,At=a]=Eπ[Rt+1+γRt+2+γ2Rt+3+...St=s,At=a]=Eπ[Rt+1+γk=0γkRt+k+2St=s,At=a]=Eπ[Rt+1+γGt+1St=s,At=a]=s,rp(s,rs,a)(r+γEπ[Gt+1St+1=s])=s,rp(s,rs,a)(r+γaπ(as)(Eπ[Gt+1St+1=s,At+1=a]))=s,rp(s,rs,a)(r+γaπ(as)q(s,a))\def\E{\operatorname{\mathbb{E}}} \begin{aligned} q_\pi(s, a) &= \E_\pi[G_t | S_t = s, A_t = a]\\ &= \E_\pi[R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... | S_t = s, A_t = a]\\ &= \E_\pi[R_{t+1} + \gamma \sum_{k=0}^\infty \gamma^k R_{t+k+2} | S_t = s, A_t = a]\\ &= \E_\pi[R_{t+1} + \gamma G_{t+1} | S_t = s, A_t = a]\\ &= \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma \E_\pi\Bigl[G_{t+1} | S_{t+1} = s'\Bigr]\Bigr)\\ &= \sum_{s', r} p(s', r | s, a)\Biggl(r + \gamma \sum_{a'} \pi(a' | s') \Bigl(\E_\pi\Bigl[G_{t+1} | S_{t+1} = s', A_{t+1} = a'\Bigr]\Bigr)\Biggr)\\ &= \sum_{s', r} p(s', r | s, a)\Biggl(r + \gamma \sum_{a'} \pi(a' | s') q(s', a')\Biggr) \end{aligned}

La dernière équation de cette chaîne est une équation de Bellman pour la fonction de valeur d'action.

Intuition

Pour déterminer la valeur d'une paire état-action (s,a)(s, a), il faut :

  1. Considérer tous les états suivants possibles ss' et récompenses rr, pondérés par leur probabilité p(s,rs,a)p(s', r | s, a) ;
  2. Pour chacun de ces résultats, additionner la récompense immédiate rr obtenue et la valeur actualisée de l'état suivant ;
  3. Pour calculer la valeur de l'état suivant ss', pour toutes les actions aa' possibles à partir de l'état ss', multiplier la valeur d'action q(s,a)q(s', a') par la probabilité de choisir aa' dans l'état ss' selon la politique actuelle π(as\pi(a' | s'. Ensuite, additionner l'ensemble pour obtenir la valeur finale.

En additionnant toutes ces possibilités, on obtient la valeur espérée totale de la paire état-action (s,a)(s, a) sous la politique actuelle.

question mark

Laquelle des propositions suivantes décrit le mieux la fonction de l'équation de Bellman ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 3. Chapitre 2

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

course content

Contenu du cours

Introduction à l'Apprentissage par Renforcement

Introduction à l'Apprentissage par Renforcement

1. Théorie Fondamentale de l'Apprentissage par Renforcement
2. Problème du Bandit Manchot
3. Programmation Dynamique
4. Méthodes de Monte Carlo
5. Apprentissage par Différence Temporelle

book
Équations de Bellman

Note
Définition

Une équation de Bellman est une équation fonctionnelle qui définit une fonction de valeur sous une forme récursive.

Pour clarifier la définition :

  • Une équation fonctionnelle est une équation dont la solution est une fonction. Pour l’équation de Bellman, cette solution est la fonction de valeur pour laquelle l’équation a été formulée ;
  • Une forme récursive signifie que la valeur à l’état courant est exprimée en fonction des valeurs aux états futurs.

En résumé, résoudre l’équation de Bellman permet d’obtenir la fonction de valeur recherchée, et la dérivation de cette équation nécessite d’identifier une relation récursive entre les états courants et futurs.

Fonction de valeur d’état

Pour rappel, voici une fonction de valeur d'état sous forme compacte :

vπ(s)=Eπ[GtSt=s]\def\E{\operatorname{\mathbb{E}}} v_\pi(s) = \E_\pi[G_t | S_t = s]

Pour obtenir l’équation de Bellman pour cette fonction de valeur, développons le côté droit de l’équation et établissons une relation récursive :

vπ(s)=Eπ[GtSt=s]=Eπ[Rt+1+γRt+2+γ2Rt+3+...St=s]=Eπ[Rt+1+γk=0γkRt+k+2St=s]=Eπ[Rt+1+γGt+1St=s]=aπ(as)s,rp(s,rs,a)(r+γEπ[Gt+1St+1=s])=aπ(as)s,rp(s,rs,a)(r+γvπ(s))\def\E{\operatorname{\mathbb{E}}} \begin{aligned} v_\pi(s) &= \E_\pi[G_t | S_t = s]\\ &= \E_\pi[R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... | S_t = s]\\ &= \E_\pi[R_{t+1} + \gamma \sum_{k=0}^\infty \gamma^k R_{t+k+2} | S_t = s]\\ &= \E_\pi[R_{t+1} + \gamma G_{t+1} | S_t = s]\\ &= \sum_a \pi(a | s) \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma \E_\pi\Bigl[G_{t+1} | S_{t+1} = s'\Bigr]\Bigr)\\ &= \sum_a \pi(a | s) \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_\pi(s')\Bigr) \end{aligned}

La dernière équation de cette chaîne est une équation de Bellman pour la fonction de valeur d'état.

Intuition

Pour déterminer la valeur d’un état ss :

  1. Considérer toutes les actions possibles aa que vous pouvez entreprendre depuis cet état, chacune pondérée par la probabilité de choisir cette action selon votre politique actuelle π(as)\pi(a | s) ;
  2. Pour chaque action aa, considérer tous les états suivants possibles ss' et récompenses rr, pondérés par leur probabilité p(s,rs,a)p(s', r | s, a) ;
  3. Pour chacun de ces résultats, prendre la récompense immédiate rr obtenue, additionnée à la valeur actualisée du prochain état γvπ(s)\gamma v_\pi(s').

En additionnant toutes ces possibilités, on obtient la valeur espérée totale de l’état ss selon la politique actuelle.

Fonction de valeur d'action

Voici une fonction de valeur d'action sous forme compacte :

qπ(s,a)=Eπ[GtSt=s,At=a]\def\E{\operatorname{\mathbb{E}}} q_\pi(s, a) = \E_\pi[G_t | S_t = s, A_t = a]

La dérivation de l'équation de Bellman pour cette fonction est assez similaire à la précédente :

qπ(s,a)=Eπ[GtSt=s,At=a]=Eπ[Rt+1+γRt+2+γ2Rt+3+...St=s,At=a]=Eπ[Rt+1+γk=0γkRt+k+2St=s,At=a]=Eπ[Rt+1+γGt+1St=s,At=a]=s,rp(s,rs,a)(r+γEπ[Gt+1St+1=s])=s,rp(s,rs,a)(r+γaπ(as)(Eπ[Gt+1St+1=s,At+1=a]))=s,rp(s,rs,a)(r+γaπ(as)q(s,a))\def\E{\operatorname{\mathbb{E}}} \begin{aligned} q_\pi(s, a) &= \E_\pi[G_t | S_t = s, A_t = a]\\ &= \E_\pi[R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... | S_t = s, A_t = a]\\ &= \E_\pi[R_{t+1} + \gamma \sum_{k=0}^\infty \gamma^k R_{t+k+2} | S_t = s, A_t = a]\\ &= \E_\pi[R_{t+1} + \gamma G_{t+1} | S_t = s, A_t = a]\\ &= \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma \E_\pi\Bigl[G_{t+1} | S_{t+1} = s'\Bigr]\Bigr)\\ &= \sum_{s', r} p(s', r | s, a)\Biggl(r + \gamma \sum_{a'} \pi(a' | s') \Bigl(\E_\pi\Bigl[G_{t+1} | S_{t+1} = s', A_{t+1} = a'\Bigr]\Bigr)\Biggr)\\ &= \sum_{s', r} p(s', r | s, a)\Biggl(r + \gamma \sum_{a'} \pi(a' | s') q(s', a')\Biggr) \end{aligned}

La dernière équation de cette chaîne est une équation de Bellman pour la fonction de valeur d'action.

Intuition

Pour déterminer la valeur d'une paire état-action (s,a)(s, a), il faut :

  1. Considérer tous les états suivants possibles ss' et récompenses rr, pondérés par leur probabilité p(s,rs,a)p(s', r | s, a) ;
  2. Pour chacun de ces résultats, additionner la récompense immédiate rr obtenue et la valeur actualisée de l'état suivant ;
  3. Pour calculer la valeur de l'état suivant ss', pour toutes les actions aa' possibles à partir de l'état ss', multiplier la valeur d'action q(s,a)q(s', a') par la probabilité de choisir aa' dans l'état ss' selon la politique actuelle π(as\pi(a' | s'. Ensuite, additionner l'ensemble pour obtenir la valeur finale.

En additionnant toutes ces possibilités, on obtient la valeur espérée totale de la paire état-action (s,a)(s, a) sous la politique actuelle.

question mark

Laquelle des propositions suivantes décrit le mieux la fonction de l'équation de Bellman ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 3. Chapitre 2
some-alt