Contenu du cours
Introduction à l'Apprentissage par Renforcement
Introduction à l'Apprentissage par Renforcement
Amélioration de la Politique
Amélioration de la politique : processus d'amélioration de la politique à partir des estimations actuelles de la fonction de valeur.
Comme pour l'évaluation de la politique, l'amélioration de la politique peut utiliser la fonction de valeur d'état ou la fonction de valeur d'action. Cependant, pour les méthodes de programmation dynamique, la fonction de valeur d'état sera utilisée.
Maintenant que l'on peut estimer la fonction de valeur d'état pour n'importe quelle politique, une étape naturelle consiste à examiner s'il existe des politiques meilleures que l'actuelle. Une façon de procéder consiste à envisager de prendre une action différente dans un état , puis de suivre la politique actuelle par la suite. Si cela semble familier, c'est parce que cela ressemble à la définition de la fonction de valeur d'action :
Si cette nouvelle valeur est supérieure à la valeur d'état originale , cela indique que choisir l'action dans l'état puis continuer avec la politique conduit à de meilleurs résultats que de suivre strictement la politique . Étant donné que les états sont indépendants, il est optimal de toujours sélectionner l'action chaque fois que l'état est rencontré. Par conséquent, il est possible de construire une politique améliorée , identique à sauf qu'elle sélectionne l'action dans l'état , ce qui serait supérieur à la politique originale .
Théorème d'amélioration de la politique
Le raisonnement décrit ci-dessus peut être généralisé sous la forme du théorème d'amélioration de la politique :
La démonstration de ce théorème est relativement simple et peut être réalisée par une substitution répétée :
Stratégie d'amélioration
Bien que la mise à jour des actions pour certains états puisse conduire à des améliorations, il est plus efficace de mettre à jour les actions pour tous les états simultanément. Plus précisément, pour chaque état , sélectionner l'action qui maximise la valeur d'action :
où (abréviation de argument du maximum) est un opérateur qui retourne la valeur de la variable qui maximise une fonction donnée.
La politique gloutonne résultante, notée , satisfait les conditions du théorème d'amélioration de politique par construction, garantissant que est au moins aussi bonne que la politique originale , et généralement meilleure.
Si est aussi bonne que, mais pas meilleure que , alors et sont toutes deux des politiques optimales, car leurs fonctions de valeur sont égales et satisfont l'équation d'optimalité de Bellman :
Merci pour vos commentaires !