Apprendre Amélioration de la Politique

Définition

Amélioration de la politique : processus d'amélioration de la politique à partir des estimations actuelles de la fonction de valeur.

Remarque

Comme pour l'évaluation de la politique, l'amélioration de la politique peut utiliser à la fois la fonction de valeur d'état et la fonction de valeur d'action. Cependant, pour les méthodes de programmation dynamique, la fonction de valeur d'état sera utilisée.

Maintenant que l'on peut estimer la fonction de valeur d'état pour n'importe quelle politique, l'étape naturelle suivante consiste à examiner s'il existe des politiques meilleures que l'actuelle. Une façon de procéder consiste à envisager de prendre une action différente $a$ dans un état $s$ , puis de suivre la politique actuelle par la suite. Si cela semble familier, c'est parce que cela ressemble à la définition de la fonction de valeur d'action :

q_\pi(s, a) = \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_\pi(s')\Bigr)

Si cette nouvelle valeur est supérieure à la valeur d'état originale $v_\pi(s)$ , cela indique que choisir l'action $a$ dans l'état $s$ puis continuer avec la politique $\pi$ conduit à de meilleurs résultats que de suivre strictement la politique $\pi$ . Étant donné que les états sont indépendants, il est optimal de toujours sélectionner l'action $a$ chaque fois que l'état $s$ est rencontré. Par conséquent, nous pouvons construire une politique améliorée $\pi'$ , identique à $\pi$ sauf qu'elle sélectionne l'action $a$ dans l'état $s$ , ce qui serait supérieur à la politique originale $\pi$ .

Théorème d'amélioration de la politique

Le raisonnement décrit ci-dessus peut être généralisé sous la forme du théorème d'amélioration de la politique :

\begin{aligned} &q_\pi(s, \pi'(s)) \ge v_\pi(s) \qquad &\forall s \in S\\ \implies &v_{\pi'}(s) \ge v_\pi(s) \qquad &\forall s \in S \end{aligned}

La démonstration de ce théorème est relativement simple et peut être réalisée par une substitution répétée :

\def\E{\operatorname{\mathbb{E}}} \begin{aligned} v_\pi(s) &\le q_\pi(s, \pi'(s))\\ &= \E_{\pi'}[R_{t+1} + \gamma v_\pi(S_{t+1}) | S_t = s]\\ &\le \E_{\pi'}[R_{t+1} + \gamma q_\pi(S_{t+1}, \pi'(S_{t+1})) | S_t = s]\\ &= \E_{\pi'}[R_{t+1} + \gamma \E_{\pi'}[R_{t+2} + \gamma v_\pi(S_{t+2})] | S_t = s]\\ &= \E_{\pi'}[R_{t+1} + \gamma R_{t+2} + \gamma^2 v_\pi(S_{t+2}) | S_t = s]\\ &...\\ &\le \E_{\pi'}[R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... | S_t = s]\\ &= v_{\pi'}(s) \end{aligned}

Stratégie d'amélioration

Bien que la mise à jour des actions pour certains états puisse conduire à des améliorations, il est plus efficace de mettre à jour les actions pour tous les états simultanément. Plus précisément, pour chaque état $s$ , sélectionner l'action $a$ qui maximise la valeur d'action $q_\pi(s, a)$ :

\begin{aligned} \pi'(s) &\gets \argmax_a q_\pi(s, a)\\ &\gets \argmax_a \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_\pi(s')\Bigr) \end{aligned}

où $\argmax$ (abréviation de argument du maximum) est un opérateur qui retourne la valeur de la variable qui maximise une fonction donnée.

La politique gloutonne résultante, notée $\pi'$ , satisfait par construction les conditions du théorème d'amélioration de la politique, garantissant que $\pi'$ est au moins aussi bonne que la politique initiale $\pi$ , et généralement meilleure.

Si $\pi'$ est aussi bonne que, mais pas meilleure que $\pi$ , alors $\pi'$ et $\pi$ sont toutes deux des politiques optimales, car leurs fonctions de valeur sont égales et satisfont l'équation d'optimalité de Bellman :

v_\pi(s) = \max_a \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_\pi(s')\Bigr)

Comment l'adoption d'une politique gloutonne garantit-elle une amélioration par rapport à la politique précédente ?

Select the correct answer

Une politique gloutonne sélectionne les actions de manière aléatoire, ce qui conduit naturellement à découvrir de meilleurs résultats.

Une politique gloutonne choisit toujours l'action avec la récompense immédiate la plus élevée, sans tenir compte des récompenses futures, assurant ainsi une amélioration à long terme.

Une politique gloutonne assure une amélioration en choisissant l'action qui maximise l'estimation actuelle de la valeur d'action, satisfaisant ainsi les conditions du théorème d'amélioration de la politique.

Une politique gloutonne s'améliore en explorant systématiquement les actions sous-optimales pour confirmer leurs estimations de valeur.

Tout était clair ?

Merci pour vos commentaires !

Section 3. Chapitre 5

Demandez à l'IA

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Glissez pour afficher le menu