Contenu du cours
Introduction à l'Apprentissage par Renforcement
Introduction à l'Apprentissage par Renforcement
Équations de Bellman
Une équation de Bellman est une équation fonctionnelle qui définit une fonction de valeur sous une forme récursive.
Pour clarifier la définition :
- Une équation fonctionnelle est une équation dont la solution est une fonction. Pour l’équation de Bellman, cette solution est la fonction de valeur pour laquelle l’équation a été formulée ;
- Une forme récursive signifie que la valeur à l’état courant est exprimée en fonction des valeurs aux états futurs.
En résumé, résoudre l’équation de Bellman permet d’obtenir la fonction de valeur recherchée, et la dérivation de cette équation nécessite d’identifier une relation récursive entre les états courants et futurs.
Fonction de valeur d’état
Pour rappel, voici une fonction de valeur d'état sous forme compacte :
Pour obtenir l’équation de Bellman pour cette fonction de valeur, développons le côté droit de l’équation et établissons une relation récursive :
La dernière équation de cette chaîne est une équation de Bellman pour la fonction de valeur d'état.
Intuition
Pour déterminer la valeur d’un état :
- Considérer toutes les actions possibles que vous pouvez entreprendre depuis cet état, chacune pondérée par la probabilité de choisir cette action selon votre politique actuelle ;
- Pour chaque action , considérer tous les états suivants possibles et récompenses , pondérés par leur probabilité ;
- Pour chacun de ces résultats, prendre la récompense immédiate obtenue, additionnée à la valeur actualisée du prochain état .
En additionnant toutes ces possibilités, on obtient la valeur espérée totale de l’état selon la politique actuelle.
Fonction de valeur d'action
Voici une fonction de valeur d'action sous forme compacte :
La dérivation de l'équation de Bellman pour cette fonction est assez similaire à la précédente :
La dernière équation de cette chaîne est une équation de Bellman pour la fonction de valeur d'action.
Intuition
Pour déterminer la valeur d'une paire état-action , il faut :
- Considérer tous les états suivants possibles et récompenses , pondérés par leur probabilité ;
- Pour chacun de ces résultats, additionner la récompense immédiate obtenue et la valeur actualisée de l'état suivant ;
- Pour calculer la valeur de l'état suivant , pour toutes les actions possibles à partir de l'état , multiplier la valeur d'action par la probabilité de choisir dans l'état selon la politique actuelle . Ensuite, additionner l'ensemble pour obtenir la valeur finale.
En additionnant toutes ces possibilités, on obtient la valeur espérée totale de la paire état-action sous la politique actuelle.
Merci pour vos commentaires !