Apprendre Équations de Bellman | Programmation Dynamique

Définition

Une équation de Bellman est une équation fonctionnelle qui définit une fonction de valeur sous une forme récursive.

Pour clarifier la définition :

Une équation fonctionnelle est une équation dont la solution est une fonction. Pour l’équation de Bellman, cette solution est la fonction de valeur pour laquelle l’équation a été formulée ;
Une forme récursive signifie que la valeur à l’état courant est exprimée en fonction des valeurs aux états futurs.

En résumé, résoudre l’équation de Bellman permet d’obtenir la fonction de valeur recherchée, et la dérivation de cette équation nécessite d’identifier une relation récursive entre les états courants et futurs.

Fonction de valeur d’état

Pour rappel, voici une fonction de valeur d'état sous forme compacte :

\def\E{\operatorname{\mathbb{E}}} v_\pi(s) = \E_\pi[G_t | S_t = s]

Pour obtenir l'équation de Bellman pour cette fonction de valeur, développons le côté droit de l'équation et établissons une relation récursive :

\def\E{\operatorname{\mathbb{E}}} \begin{aligned} v_\pi(s) &= \E_\pi[G_t | S_t = s]\\ &= \E_\pi[R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... | S_t = s]\\ &= \E_\pi[R_{t+1} + \gamma \sum_{k=0}^\infty \gamma^k R_{t+k+2} | S_t = s]\\ &= \E_\pi[R_{t+1} + \gamma G_{t+1} | S_t = s]\\ &= \sum_a \pi(a | s) \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma \E_\pi\Bigl[G_{t+1} | S_{t+1} = s'\Bigr]\Bigr)\\ &= \sum_a \pi(a | s) \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_\pi(s')\Bigr) \end{aligned}

La dernière équation de cette chaîne est une équation de Bellman pour la fonction de valeur d'état.

Intuition

Pour déterminer la valeur d'un état $s$ :

Considérer toutes les actions possibles $a$ que l'on peut effectuer depuis cet état, chacune pondérée par la probabilité de choisir cette action selon la politique actuelle $\pi(a | s)$ ;
Pour chaque action $a$ , considérer tous les états suivants possibles $s'$ et récompenses $r$ , pondérés par leur probabilité $p(s', r | s, a)$ ;
Pour chacun de ces résultats, prendre la récompense immédiate $r$ obtenue, additionnée à la valeur actualisée de l'état suivant $\gamma v_\pi(s')$ .

En additionnant toutes ces possibilités, on obtient la valeur espérée totale de l'état $s$ selon la politique actuelle.

Fonction de valeur d'action

Voici une fonction de valeur d'action sous forme compacte :

\def\E{\operatorname{\mathbb{E}}} q_\pi(s, a) = \E_\pi[G_t | S_t = s, A_t = a]

La dérivation de l'équation de Bellman pour cette fonction est assez similaire à la précédente :

\def\E{\operatorname{\mathbb{E}}} \begin{aligned} q_\pi(s, a) &= \E_\pi[G_t | S_t = s, A_t = a]\\ &= \E_\pi[R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... | S_t = s, A_t = a]\\ &= \E_\pi[R_{t+1} + \gamma \sum_{k=0}^\infty \gamma^k R_{t+k+2} | S_t = s, A_t = a]\\ &= \E_\pi[R_{t+1} + \gamma G_{t+1} | S_t = s, A_t = a]\\ &= \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma \E_\pi\Bigl[G_{t+1} | S_{t+1} = s'\Bigr]\Bigr)\\ &= \sum_{s', r} p(s', r | s, a)\Biggl(r + \gamma \sum_{a'} \pi(a' | s') \Bigl(\E_\pi\Bigl[G_{t+1} | S_{t+1} = s', A_{t+1} = a'\Bigr]\Bigr)\Biggr)\\ &= \sum_{s', r} p(s', r | s, a)\Biggl(r + \gamma \sum_{a'} \pi(a' | s') q(s', a')\Biggr) \end{aligned}

La dernière équation de cette chaîne est une équation de Bellman pour la fonction de valeur d'action.

Intuition

Pour déterminer la valeur d'une paire état-action $(s, a)$ , il faut :

Considérer tous les états suivants possibles $s'$ et récompenses $r$ , pondérés par leur probabilité $p(s', r | s, a)$ ;
Pour chacun de ces résultats, additionner la récompense immédiate $r$ obtenue et la valeur actualisée de l'état suivant ;
Pour calculer la valeur de l'état suivant $s'$ , pour toutes les actions $a'$ possibles à partir de l'état $s'$ , multiplier la valeur d'action $q(s', a')$ par la probabilité de choisir $a'$ dans l'état $s'$ selon la politique actuelle $\pi(a' | s')$ . Ensuite, additionner l'ensemble pour obtenir la valeur finale.

En additionnant toutes ces possibilités, on obtient la valeur espérée totale de la paire état-action $(s, a)$ sous la politique actuelle.

Tout était clair ?

Merci pour vos commentaires !

Section 3. Chapitre 2

Demandez à l'IA

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Suggested prompts:

Can you explain the difference between the state value function and the action value function?

How does the Bellman equation help in reinforcement learning?

Can you provide a simple example illustrating the Bellman equation?

Glissez pour afficher le menu

Définition

Une équation de Bellman est une équation fonctionnelle qui définit une fonction de valeur sous une forme récursive.

Pour clarifier la définition :

Une équation fonctionnelle est une équation dont la solution est une fonction. Pour l’équation de Bellman, cette solution est la fonction de valeur pour laquelle l’équation a été formulée ;
Une forme récursive signifie que la valeur à l’état courant est exprimée en fonction des valeurs aux états futurs.

Fonction de valeur d’état

Pour rappel, voici une fonction de valeur d'état sous forme compacte :

\def\E{\operatorname{\mathbb{E}}} v_\pi(s) = \E_\pi[G_t | S_t = s]

Pour obtenir l'équation de Bellman pour cette fonction de valeur, développons le côté droit de l'équation et établissons une relation récursive :

\def\E{\operatorname{\mathbb{E}}} \begin{aligned} v_\pi(s) &= \E_\pi[G_t | S_t = s]\\ &= \E_\pi[R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... | S_t = s]\\ &= \E_\pi[R_{t+1} + \gamma \sum_{k=0}^\infty \gamma^k R_{t+k+2} | S_t = s]\\ &= \E_\pi[R_{t+1} + \gamma G_{t+1} | S_t = s]\\ &= \sum_a \pi(a | s) \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma \E_\pi\Bigl[G_{t+1} | S_{t+1} = s'\Bigr]\Bigr)\\ &= \sum_a \pi(a | s) \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_\pi(s')\Bigr) \end{aligned}

La dernière équation de cette chaîne est une équation de Bellman pour la fonction de valeur d'état.

Intuition

Pour déterminer la valeur d'un état $s$ :

Considérer toutes les actions possibles $a$ que l'on peut effectuer depuis cet état, chacune pondérée par la probabilité de choisir cette action selon la politique actuelle $\pi(a | s)$ ;
Pour chaque action $a$ , considérer tous les états suivants possibles $s'$ et récompenses $r$ , pondérés par leur probabilité $p(s', r | s, a)$ ;
Pour chacun de ces résultats, prendre la récompense immédiate $r$ obtenue, additionnée à la valeur actualisée de l'état suivant $\gamma v_\pi(s')$ .

En additionnant toutes ces possibilités, on obtient la valeur espérée totale de l'état $s$ selon la politique actuelle.

Fonction de valeur d'action

Voici une fonction de valeur d'action sous forme compacte :

\def\E{\operatorname{\mathbb{E}}} q_\pi(s, a) = \E_\pi[G_t | S_t = s, A_t = a]

La dérivation de l'équation de Bellman pour cette fonction est assez similaire à la précédente :

\def\E{\operatorname{\mathbb{E}}} \begin{aligned} q_\pi(s, a) &= \E_\pi[G_t | S_t = s, A_t = a]\\ &= \E_\pi[R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... | S_t = s, A_t = a]\\ &= \E_\pi[R_{t+1} + \gamma \sum_{k=0}^\infty \gamma^k R_{t+k+2} | S_t = s, A_t = a]\\ &= \E_\pi[R_{t+1} + \gamma G_{t+1} | S_t = s, A_t = a]\\ &= \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma \E_\pi\Bigl[G_{t+1} | S_{t+1} = s'\Bigr]\Bigr)\\ &= \sum_{s', r} p(s', r | s, a)\Biggl(r + \gamma \sum_{a'} \pi(a' | s') \Bigl(\E_\pi\Bigl[G_{t+1} | S_{t+1} = s', A_{t+1} = a'\Bigr]\Bigr)\Biggr)\\ &= \sum_{s', r} p(s', r | s, a)\Biggl(r + \gamma \sum_{a'} \pi(a' | s') q(s', a')\Biggr) \end{aligned}

La dernière équation de cette chaîne est une équation de Bellman pour la fonction de valeur d'action.

Intuition

Pour déterminer la valeur d'une paire état-action $(s, a)$ , il faut :

Considérer tous les états suivants possibles $s'$ et récompenses $r$ , pondérés par leur probabilité $p(s', r | s, a)$ ;
Pour chacun de ces résultats, additionner la récompense immédiate $r$ obtenue et la valeur actualisée de l'état suivant ;
Pour calculer la valeur de l'état suivant $s'$ , pour toutes les actions $a'$ possibles à partir de l'état $s'$ , multiplier la valeur d'action $q(s', a')$ par la probabilité de choisir $a'$ dans l'état $s'$ selon la politique actuelle $\pi(a' | s')$ . Ensuite, additionner l'ensemble pour obtenir la valeur finale.

En additionnant toutes ces possibilités, on obtient la valeur espérée totale de la paire état-action $(s, a)$ sous la politique actuelle.

Tout était clair ?

Merci pour vos commentaires !

Section 3. Chapitre 2