Aprende Mejora de Políticas | Programación Dinámica

Definición

Mejora de la política es el proceso de optimizar la política basándose en las estimaciones actuales de la función de valor.

Nota

Al igual que con la evaluación de políticas, la mejora de la política puede trabajar tanto con la función de valor de estado como con la función de valor de acción. Sin embargo, para los métodos de programación dinámica, se utilizará la función de valor de estado.

Ahora que puedes estimar la función de valor de estado para cualquier política, el siguiente paso natural es explorar si existen políticas mejores que la actual. Una forma de hacerlo es considerar tomar una acción diferente $a$ en un estado $s$ y seguir la política actual después. Si esto resulta familiar, es porque es similar a cómo se define la función de valor de acción:

q_\pi(s, a) = \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_\pi(s')\Bigr)

Si este nuevo valor es mayor que el valor original del estado $v_\pi(s)$ , indica que tomar la acción $a$ en el estado $s$ y luego continuar con la política $\pi$ conduce a mejores resultados que seguir estrictamente la política $\pi$ . Dado que los estados son independientes, es óptimo seleccionar siempre la acción $a$ cada vez que se encuentre el estado $s$ . Por lo tanto, se puede construir una política mejorada $\pi'$ , idéntica a $\pi$ excepto que selecciona la acción $a$ en el estado $s$ , lo cual sería superior a la política original $\pi$ .

Teorema de mejora de la política

El razonamiento descrito anteriormente puede generalizarse como el teorema de mejora de la política:

\begin{aligned} &q_\pi(s, \pi'(s)) \ge v_\pi(s) \qquad &\forall s \in S\\ \implies &v_{\pi'}(s) \ge v_\pi(s) \qquad &\forall s \in S \end{aligned}

La demostración de este teorema es relativamente sencilla y puede lograrse mediante una sustitución repetida:

\def\E{\operatorname{\mathbb{E}}} \begin{aligned} v_\pi(s) &\le q_\pi(s, \pi'(s))\\ &= \E_{\pi'}[R_{t+1} + \gamma v_\pi(S_{t+1}) | S_t = s]\\ &\le \E_{\pi'}[R_{t+1} + \gamma q_\pi(S_{t+1}, \pi'(S_{t+1})) | S_t = s]\\ &= \E_{\pi'}[R_{t+1} + \gamma \E_{\pi'}[R_{t+2} + \gamma v_\pi(S_{t+2})] | S_t = s]\\ &= \E_{\pi'}[R_{t+1} + \gamma R_{t+2} + \gamma^2 v_\pi(S_{t+2}) | S_t = s]\\ &...\\ &\le \E_{\pi'}[R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... | S_t = s]\\ &= v_{\pi'}(s) \end{aligned}

Estrategia de mejora

Si bien actualizar las acciones para ciertos estados puede conducir a mejoras, es más efectivo actualizar las acciones para todos los estados simultáneamente. Específicamente, para cada estado $s$ , seleccionar la acción $a$ que maximice el valor de acción $q_\pi(s, a)$ :

\begin{aligned} \pi'(s) &\gets \argmax_a q_\pi(s, a)\\ &\gets \argmax_a \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_\pi(s')\Bigr) \end{aligned}

donde $\argmax$ (abreviatura de argumento del máximo) es un operador que devuelve el valor de la variable que maximiza una función dada.

La política codiciosa resultante, denotada por $\pi'$ , cumple con las condiciones del teorema de mejora de la política por construcción, garantizando que $\pi'$ es al menos tan buena como la política original $\pi$ , y típicamente mejor.

Si $\pi'$ es tan buena como, pero no mejor que $\pi$ , entonces tanto $\pi'$ como $\pi$ son políticas óptimas, ya que sus funciones de valor son iguales y satisfacen la ecuación de optimalidad de Bellman:

v_\pi(s) = \max_a \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_\pi(s')\Bigr)

¿Todo estuvo claro?

¡Gracias por tus comentarios!

Sección 3. Capítulo 5

Pregunte a AI

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Suggested prompts:

Can you explain the policy improvement theorem in simpler terms?

How does the greedy policy guarantee improvement over the original policy?

What is the Bellman optimality equation and why is it important?

Desliza para mostrar el menú