Evaluación de Políticas
Evaluación de políticas es un proceso para determinar la función de valor de una política dada.
La evaluación de políticas puede utilizarse para estimar tanto la función de valor de estado como la función de valor de acción. Sin embargo, para los métodos de programación dinámica, se utilizará la función de valor de estado.
Como se sabe, la función de valor de estado de una política dada puede determinarse resolviendo una ecuación de Bellman:
vπ(s)=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γvπ(s′))Si se dispone de un modelo completo del entorno (es decir, se conocen las probabilidades de transición y las recompensas esperadas para todos los pares estado-acción), las únicas variables desconocidas que quedan en la ecuación son los valores de los estados. Por lo tanto, la ecuación anterior puede reformularse como un sistema de ∣S∣ ecuaciones lineales con ∣S∣ incógnitas.
Por ejemplo, si un MDP tiene 2 estados (s1, s2) y 2 acciones (moverse a s1, moverse a s2), la función de valor de estado podría definirse así:
{V(s1)=0.5⋅(5+0.9⋅V(s1))+0.5⋅(10+0.9⋅V(s2))V(s2)=0.7⋅(2+0.9⋅V(s1))+0.3⋅(0+0.9⋅V(s2))Esto puede resolverse utilizando técnicas estándar de álgebra lineal.
Una solución única para este sistema lineal está garantizada si se cumple al menos una de las siguientes condiciones:
- El factor de descuento satisface γ<1;
- La política π, al seguirse desde cualquier estado s, garantiza que el episodio eventualmente termina.
Evaluación Iterativa de Políticas
La solución puede calcularse directamente, pero se utiliza con mayor frecuencia un enfoque iterativo debido a su facilidad de implementación. Este método comienza asignando valores arbitrarios a todos los estados, excepto a los estados terminales, que se establecen en 0. Los valores se actualizan iterativamente utilizando la ecuación de Bellman como regla de actualización:
vk+1(s)←a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γvk(s′))La función de valor de estado estimada vk finalmente converge a la verdadera función de valor de estado vπ cuando k→∞ si vπ existe.
Estrategias de Respaldo de Valores
Al actualizar las estimaciones de valor, las nuevas estimaciones se calculan en función de los valores anteriores. El proceso de conservar las estimaciones previas se conoce como respaldo. Existen dos estrategias comunes para realizar respaldos:
- Respaldo completo: este método implica almacenar las nuevas estimaciones en un arreglo separado, distinto del que contiene los valores anteriores (respaldados). Por lo tanto, se requieren dos arreglos: uno para mantener las estimaciones previas y otro para almacenar los valores recién calculados;
- Respaldo en el lugar: este enfoque mantiene todos los valores dentro de un solo arreglo. Cada nueva estimación reemplaza inmediatamente el valor anterior. Este método reduce el uso de memoria, ya que solo se necesita un arreglo.
Por lo general, se prefiere el método de respaldo en el lugar porque requiere menos memoria y converge más rápidamente, debido al uso inmediato de las estimaciones más recientes.
¿Cuándo detener la actualización?
En la evaluación iterativa de políticas, no existe un punto exacto en el que el algoritmo deba detenerse. Aunque la convergencia está garantizada en el límite, continuar los cálculos más allá de cierto punto es innecesario en la práctica. Un criterio de parada simple y efectivo es monitorear la diferencia absoluta entre estimaciones de valor consecutivas, ∣vk+1(s)−vk(s)∣, y compararla con un umbral pequeño θ. Si, después de un ciclo completo de actualización (donde se actualizan los valores de todos los estados), ningún cambio supera θ, el proceso puede finalizarse de manera segura.
Pseudocódigo
¡Gracias por tus comentarios!
Pregunte a AI
Pregunte a AI
Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla
Awesome!
Completion rate improved to 2.7
Evaluación de Políticas
Desliza para mostrar el menú
Evaluación de políticas es un proceso para determinar la función de valor de una política dada.
La evaluación de políticas puede utilizarse para estimar tanto la función de valor de estado como la función de valor de acción. Sin embargo, para los métodos de programación dinámica, se utilizará la función de valor de estado.
Como se sabe, la función de valor de estado de una política dada puede determinarse resolviendo una ecuación de Bellman:
vπ(s)=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γvπ(s′))Si se dispone de un modelo completo del entorno (es decir, se conocen las probabilidades de transición y las recompensas esperadas para todos los pares estado-acción), las únicas variables desconocidas que quedan en la ecuación son los valores de los estados. Por lo tanto, la ecuación anterior puede reformularse como un sistema de ∣S∣ ecuaciones lineales con ∣S∣ incógnitas.
Por ejemplo, si un MDP tiene 2 estados (s1, s2) y 2 acciones (moverse a s1, moverse a s2), la función de valor de estado podría definirse así:
{V(s1)=0.5⋅(5+0.9⋅V(s1))+0.5⋅(10+0.9⋅V(s2))V(s2)=0.7⋅(2+0.9⋅V(s1))+0.3⋅(0+0.9⋅V(s2))Esto puede resolverse utilizando técnicas estándar de álgebra lineal.
Una solución única para este sistema lineal está garantizada si se cumple al menos una de las siguientes condiciones:
- El factor de descuento satisface γ<1;
- La política π, al seguirse desde cualquier estado s, garantiza que el episodio eventualmente termina.
Evaluación Iterativa de Políticas
La solución puede calcularse directamente, pero se utiliza con mayor frecuencia un enfoque iterativo debido a su facilidad de implementación. Este método comienza asignando valores arbitrarios a todos los estados, excepto a los estados terminales, que se establecen en 0. Los valores se actualizan iterativamente utilizando la ecuación de Bellman como regla de actualización:
vk+1(s)←a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γvk(s′))La función de valor de estado estimada vk finalmente converge a la verdadera función de valor de estado vπ cuando k→∞ si vπ existe.
Estrategias de Respaldo de Valores
Al actualizar las estimaciones de valor, las nuevas estimaciones se calculan en función de los valores anteriores. El proceso de conservar las estimaciones previas se conoce como respaldo. Existen dos estrategias comunes para realizar respaldos:
- Respaldo completo: este método implica almacenar las nuevas estimaciones en un arreglo separado, distinto del que contiene los valores anteriores (respaldados). Por lo tanto, se requieren dos arreglos: uno para mantener las estimaciones previas y otro para almacenar los valores recién calculados;
- Respaldo en el lugar: este enfoque mantiene todos los valores dentro de un solo arreglo. Cada nueva estimación reemplaza inmediatamente el valor anterior. Este método reduce el uso de memoria, ya que solo se necesita un arreglo.
Por lo general, se prefiere el método de respaldo en el lugar porque requiere menos memoria y converge más rápidamente, debido al uso inmediato de las estimaciones más recientes.
¿Cuándo detener la actualización?
En la evaluación iterativa de políticas, no existe un punto exacto en el que el algoritmo deba detenerse. Aunque la convergencia está garantizada en el límite, continuar los cálculos más allá de cierto punto es innecesario en la práctica. Un criterio de parada simple y efectivo es monitorear la diferencia absoluta entre estimaciones de valor consecutivas, ∣vk+1(s)−vk(s)∣, y compararla con un umbral pequeño θ. Si, después de un ciclo completo de actualización (donde se actualizan los valores de todos los estados), ningún cambio supera θ, el proceso puede finalizarse de manera segura.
Pseudocódigo
¡Gracias por tus comentarios!