Amélioration de la Politique
Amélioration de la politique : processus d'amélioration de la politique à partir des estimations actuelles de la fonction de valeur.
Comme pour l'évaluation de la politique, l'amélioration de la politique peut utiliser la fonction de valeur d'état ou la fonction de valeur d'action. Cependant, pour les méthodes de programmation dynamique, la fonction de valeur d'état sera utilisée.
Maintenant que l'on peut estimer la fonction de valeur d'état pour n'importe quelle politique, une étape naturelle consiste à examiner s'il existe des politiques meilleures que l'actuelle. Une façon de procéder consiste à envisager de prendre une action différente a dans un état s, puis de suivre la politique actuelle par la suite. Si cela semble familier, c'est parce que cela ressemble à la définition de la fonction de valeur d'action :
qπ(s,a)=s′,r∑p(s′,r∣s,a)(r+γvπ(s′))Si cette nouvelle valeur est supérieure à la valeur d'état originale vπ(s), cela indique que choisir l'action a dans l'état s puis continuer avec la politique π conduit à de meilleurs résultats que de suivre strictement la politique π. Étant donné que les états sont indépendants, il est optimal de toujours sélectionner l'action a chaque fois que l'état s est rencontré. Par conséquent, il est possible de construire une politique améliorée π′, identique à π sauf qu'elle sélectionne l'action a dans l'état s, ce qui serait supérieur à la politique originale π.
Théorème d'amélioration de la politique
Le raisonnement décrit ci-dessus peut être généralisé sous la forme du théorème d'amélioration de la politique :
⟹qπ(s,π′(s))≥vπ(s)vπ′(s)≥vπ(s)∀s∈S∀s∈SLa démonstration de ce théorème est relativement simple et peut être réalisée par une substitution répétée :
vπ(s)≤qπ(s,π′(s))=Eπ′[Rt+1+γvπ(St+1)∣St=s]≤Eπ′[Rt+1+γqπ(St+1,π′(St+1))∣St=s]=Eπ′[Rt+1+γEπ′[Rt+2+γvπ(St+2)]∣St=s]=Eπ′[Rt+1+γRt+2+γ2vπ(St+2)∣St=s]...≤Eπ′[Rt+1+γRt+2+γ2Rt+3+...∣St=s]=vπ′(s)Stratégie d'amélioration
Bien que la mise à jour des actions pour certains états puisse conduire à des améliorations, il est plus efficace de mettre à jour les actions pour tous les états simultanément. Plus précisément, pour chaque état s, sélectionner l'action a qui maximise la valeur d'action qπ(s,a) :
π′(s)←aargmaxqπ(s,a)←aargmaxs′,r∑p(s′,r∣s,a)(r+γvπ(s′))où argmax (abréviation de argument du maximum) est un opérateur qui retourne la valeur de la variable qui maximise une fonction donnée.
La politique gloutonne résultante, notée π′, satisfait les conditions du théorème d'amélioration de politique par construction, garantissant que π′ est au moins aussi bonne que la politique originale π, et généralement meilleure.
Si π′ est aussi bonne que, mais pas meilleure que π, alors π′ et π sont toutes deux des politiques optimales, car leurs fonctions de valeur sont égales et satisfont l'équation d'optimalité de Bellman :
vπ(s)=amaxs′,r∑p(s′,r∣s,a)(r+γvπ(s′))Merci pour vos commentaires !
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion
Awesome!
Completion rate improved to 2.7
Amélioration de la Politique
Glissez pour afficher le menu
Amélioration de la politique : processus d'amélioration de la politique à partir des estimations actuelles de la fonction de valeur.
Comme pour l'évaluation de la politique, l'amélioration de la politique peut utiliser la fonction de valeur d'état ou la fonction de valeur d'action. Cependant, pour les méthodes de programmation dynamique, la fonction de valeur d'état sera utilisée.
Maintenant que l'on peut estimer la fonction de valeur d'état pour n'importe quelle politique, une étape naturelle consiste à examiner s'il existe des politiques meilleures que l'actuelle. Une façon de procéder consiste à envisager de prendre une action différente a dans un état s, puis de suivre la politique actuelle par la suite. Si cela semble familier, c'est parce que cela ressemble à la définition de la fonction de valeur d'action :
qπ(s,a)=s′,r∑p(s′,r∣s,a)(r+γvπ(s′))Si cette nouvelle valeur est supérieure à la valeur d'état originale vπ(s), cela indique que choisir l'action a dans l'état s puis continuer avec la politique π conduit à de meilleurs résultats que de suivre strictement la politique π. Étant donné que les états sont indépendants, il est optimal de toujours sélectionner l'action a chaque fois que l'état s est rencontré. Par conséquent, il est possible de construire une politique améliorée π′, identique à π sauf qu'elle sélectionne l'action a dans l'état s, ce qui serait supérieur à la politique originale π.
Théorème d'amélioration de la politique
Le raisonnement décrit ci-dessus peut être généralisé sous la forme du théorème d'amélioration de la politique :
⟹qπ(s,π′(s))≥vπ(s)vπ′(s)≥vπ(s)∀s∈S∀s∈SLa démonstration de ce théorème est relativement simple et peut être réalisée par une substitution répétée :
vπ(s)≤qπ(s,π′(s))=Eπ′[Rt+1+γvπ(St+1)∣St=s]≤Eπ′[Rt+1+γqπ(St+1,π′(St+1))∣St=s]=Eπ′[Rt+1+γEπ′[Rt+2+γvπ(St+2)]∣St=s]=Eπ′[Rt+1+γRt+2+γ2vπ(St+2)∣St=s]...≤Eπ′[Rt+1+γRt+2+γ2Rt+3+...∣St=s]=vπ′(s)Stratégie d'amélioration
Bien que la mise à jour des actions pour certains états puisse conduire à des améliorations, il est plus efficace de mettre à jour les actions pour tous les états simultanément. Plus précisément, pour chaque état s, sélectionner l'action a qui maximise la valeur d'action qπ(s,a) :
π′(s)←aargmaxqπ(s,a)←aargmaxs′,r∑p(s′,r∣s,a)(r+γvπ(s′))où argmax (abréviation de argument du maximum) est un opérateur qui retourne la valeur de la variable qui maximise une fonction donnée.
La politique gloutonne résultante, notée π′, satisfait les conditions du théorème d'amélioration de politique par construction, garantissant que π′ est au moins aussi bonne que la politique originale π, et généralement meilleure.
Si π′ est aussi bonne que, mais pas meilleure que π, alors π′ et π sont toutes deux des politiques optimales, car leurs fonctions de valeur sont égales et satisfont l'équation d'optimalité de Bellman :
vπ(s)=amaxs′,r∑p(s′,r∣s,a)(r+γvπ(s′))Merci pour vos commentaires !