Équations de Bellman
Une équation de Bellman est une équation fonctionnelle qui définit une fonction de valeur sous une forme récursive.
Pour clarifier la définition :
- Une équation fonctionnelle est une équation dont la solution est une fonction. Pour l’équation de Bellman, cette solution est la fonction de valeur pour laquelle l’équation a été formulée ;
- Une forme récursive signifie que la valeur à l’état courant est exprimée en fonction des valeurs aux états futurs.
En résumé, résoudre l’équation de Bellman permet d’obtenir la fonction de valeur recherchée, et la dérivation de cette équation nécessite d’identifier une relation récursive entre les états courants et futurs.
Fonction de valeur d’état
Pour rappel, voici une fonction de valeur d'état sous forme compacte :
vπ(s)=Eπ[Gt∣St=s]Pour obtenir l’équation de Bellman pour cette fonction de valeur, développons le côté droit de l’équation et établissons une relation récursive :
vπ(s)=Eπ[Gt∣St=s]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s]=Eπ[Rt+1+γk=0∑∞γkRt+k+2∣St=s]=Eπ[Rt+1+γGt+1∣St=s]=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γEπ[Gt+1∣St+1=s′])=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γvπ(s′))La dernière équation de cette chaîne est une équation de Bellman pour la fonction de valeur d'état.
Intuition
Pour déterminer la valeur d’un état s :
- Considérer toutes les actions possibles a que vous pouvez entreprendre depuis cet état, chacune pondérée par la probabilité de choisir cette action selon votre politique actuelle π(a∣s) ;
- Pour chaque action a, considérer tous les états suivants possibles s′ et récompenses r, pondérés par leur probabilité p(s′,r∣s,a) ;
- Pour chacun de ces résultats, prendre la récompense immédiate r obtenue, additionnée à la valeur actualisée du prochain état γvπ(s′).
En additionnant toutes ces possibilités, on obtient la valeur espérée totale de l’état s selon la politique actuelle.
Fonction de valeur d'action
Voici une fonction de valeur d'action sous forme compacte :
qπ(s,a)=Eπ[Gt∣St=s,At=a]La dérivation de l'équation de Bellman pour cette fonction est assez similaire à la précédente :
qπ(s,a)=Eπ[Gt∣St=s,At=a]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s,At=a]=Eπ[Rt+1+γk=0∑∞γkRt+k+2∣St=s,At=a]=Eπ[Rt+1+γGt+1∣St=s,At=a]=s′,r∑p(s′,r∣s,a)(r+γEπ[Gt+1∣St+1=s′])=s′,r∑p(s′,r∣s,a)(r+γa′∑π(a′∣s′)(Eπ[Gt+1∣St+1=s′,At+1=a′]))=s′,r∑p(s′,r∣s,a)(r+γa′∑π(a′∣s′)q(s′,a′))La dernière équation de cette chaîne est une équation de Bellman pour la fonction de valeur d'action.
Intuition
Pour déterminer la valeur d'une paire état-action (s,a), il faut :
- Considérer tous les états suivants possibles s′ et récompenses r, pondérés par leur probabilité p(s′,r∣s,a) ;
- Pour chacun de ces résultats, additionner la récompense immédiate r obtenue et la valeur actualisée de l'état suivant ;
- Pour calculer la valeur de l'état suivant s′, pour toutes les actions a′ possibles à partir de l'état s′, multiplier la valeur d'action q(s′,a′) par la probabilité de choisir a′ dans l'état s′ selon la politique actuelle π(a′∣s′. Ensuite, additionner l'ensemble pour obtenir la valeur finale.
En additionnant toutes ces possibilités, on obtient la valeur espérée totale de la paire état-action (s,a) sous la politique actuelle.
Merci pour vos commentaires !
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion
Awesome!
Completion rate improved to 2.7
Équations de Bellman
Glissez pour afficher le menu
Une équation de Bellman est une équation fonctionnelle qui définit une fonction de valeur sous une forme récursive.
Pour clarifier la définition :
- Une équation fonctionnelle est une équation dont la solution est une fonction. Pour l’équation de Bellman, cette solution est la fonction de valeur pour laquelle l’équation a été formulée ;
- Une forme récursive signifie que la valeur à l’état courant est exprimée en fonction des valeurs aux états futurs.
En résumé, résoudre l’équation de Bellman permet d’obtenir la fonction de valeur recherchée, et la dérivation de cette équation nécessite d’identifier une relation récursive entre les états courants et futurs.
Fonction de valeur d’état
Pour rappel, voici une fonction de valeur d'état sous forme compacte :
vπ(s)=Eπ[Gt∣St=s]Pour obtenir l’équation de Bellman pour cette fonction de valeur, développons le côté droit de l’équation et établissons une relation récursive :
vπ(s)=Eπ[Gt∣St=s]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s]=Eπ[Rt+1+γk=0∑∞γkRt+k+2∣St=s]=Eπ[Rt+1+γGt+1∣St=s]=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γEπ[Gt+1∣St+1=s′])=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γvπ(s′))La dernière équation de cette chaîne est une équation de Bellman pour la fonction de valeur d'état.
Intuition
Pour déterminer la valeur d’un état s :
- Considérer toutes les actions possibles a que vous pouvez entreprendre depuis cet état, chacune pondérée par la probabilité de choisir cette action selon votre politique actuelle π(a∣s) ;
- Pour chaque action a, considérer tous les états suivants possibles s′ et récompenses r, pondérés par leur probabilité p(s′,r∣s,a) ;
- Pour chacun de ces résultats, prendre la récompense immédiate r obtenue, additionnée à la valeur actualisée du prochain état γvπ(s′).
En additionnant toutes ces possibilités, on obtient la valeur espérée totale de l’état s selon la politique actuelle.
Fonction de valeur d'action
Voici une fonction de valeur d'action sous forme compacte :
qπ(s,a)=Eπ[Gt∣St=s,At=a]La dérivation de l'équation de Bellman pour cette fonction est assez similaire à la précédente :
qπ(s,a)=Eπ[Gt∣St=s,At=a]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s,At=a]=Eπ[Rt+1+γk=0∑∞γkRt+k+2∣St=s,At=a]=Eπ[Rt+1+γGt+1∣St=s,At=a]=s′,r∑p(s′,r∣s,a)(r+γEπ[Gt+1∣St+1=s′])=s′,r∑p(s′,r∣s,a)(r+γa′∑π(a′∣s′)(Eπ[Gt+1∣St+1=s′,At+1=a′]))=s′,r∑p(s′,r∣s,a)(r+γa′∑π(a′∣s′)q(s′,a′))La dernière équation de cette chaîne est une équation de Bellman pour la fonction de valeur d'action.
Intuition
Pour déterminer la valeur d'une paire état-action (s,a), il faut :
- Considérer tous les états suivants possibles s′ et récompenses r, pondérés par leur probabilité p(s′,r∣s,a) ;
- Pour chacun de ces résultats, additionner la récompense immédiate r obtenue et la valeur actualisée de l'état suivant ;
- Pour calculer la valeur de l'état suivant s′, pour toutes les actions a′ possibles à partir de l'état s′, multiplier la valeur d'action q(s′,a′) par la probabilité de choisir a′ dans l'état s′ selon la politique actuelle π(a′∣s′. Ensuite, additionner l'ensemble pour obtenir la valeur finale.
En additionnant toutes ces possibilités, on obtient la valeur espérée totale de la paire état-action (s,a) sous la politique actuelle.
Merci pour vos commentaires !