Mejora de Políticas
Mejora de la política es un proceso de optimización de la política basado en las estimaciones actuales de la función de valor.
Al igual que con la evaluación de la política, la mejora de la política puede trabajar tanto con la función de valor de estado como con la función de valor de acción. Sin embargo, para los métodos de programación dinámica, se utilizará la función de valor de estado.
Ahora que puedes estimar la función de valor de estado para cualquier política, un siguiente paso natural es explorar si existen políticas mejores que la actual. Una forma de hacerlo es considerar tomar una acción diferente a en un estado s, y seguir la política actual después de eso. Si esto te resulta familiar, es porque es similar a cómo definimos la función de valor de acción:
qπ(s,a)=s′,r∑p(s′,r∣s,a)(r+γvπ(s′))Si este nuevo valor es mayor que el valor original del estado vπ(s), indica que tomar la acción a en el estado s y luego continuar con la política π conduce a mejores resultados que seguir estrictamente la política π. Dado que los estados son independientes, es óptimo seleccionar siempre la acción a cada vez que se encuentre el estado s. Por lo tanto, podemos construir una política mejorada π′, idéntica a π excepto que selecciona la acción a en el estado s, lo que sería superior a la política original π.
Teorema de mejora de la política
El razonamiento descrito anteriormente puede generalizarse como el teorema de mejora de la política:
⟹qπ(s,π′(s))≥vπ(s)vπ′(s)≥vπ(s)∀s∈S∀s∈SLa demostración de este teorema es relativamente sencilla y se puede lograr mediante una sustitución repetida:
vπ(s)≤qπ(s,π′(s))=Eπ′[Rt+1+γvπ(St+1)∣St=s]≤Eπ′[Rt+1+γqπ(St+1,π′(St+1))∣St=s]=Eπ′[Rt+1+γEπ′[Rt+2+γvπ(St+2)]∣St=s]=Eπ′[Rt+1+γRt+2+γ2vπ(St+2)∣St=s]...≤Eπ′[Rt+1+γRt+2+γ2Rt+3+...∣St=s]=vπ′(s)Estrategia de mejora
Aunque actualizar las acciones para ciertos estados puede conducir a mejoras, es más efectivo actualizar las acciones para todos los estados simultáneamente. Específicamente, para cada estado s, seleccionar la acción a que maximice el valor de acción qπ(s,a):
π′(s)←aargmaxqπ(s,a)←aargmaxs′,r∑p(s′,r∣s,a)(r+γvπ(s′))donde argmax (abreviatura de argumento del máximo) es un operador que devuelve el valor de la variable que maximiza una función dada.
La política codiciosa resultante, denotada por π′, cumple con las condiciones del teorema de mejora de la política por construcción, garantizando que π′ es al menos tan buena como la política original π, y típicamente mejor.
Si π′ es tan buena como, pero no mejor que π, entonces tanto π′ como π son políticas óptimas, ya que sus funciones de valor son iguales y satisfacen la ecuación de optimalidad de Bellman:
vπ(s)=amaxs′,r∑p(s′,r∣s,a)(r+γvπ(s′))¡Gracias por tus comentarios!
Pregunte a AI
Pregunte a AI
Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla
Awesome!
Completion rate improved to 2.7
Mejora de Políticas
Desliza para mostrar el menú
Mejora de la política es un proceso de optimización de la política basado en las estimaciones actuales de la función de valor.
Al igual que con la evaluación de la política, la mejora de la política puede trabajar tanto con la función de valor de estado como con la función de valor de acción. Sin embargo, para los métodos de programación dinámica, se utilizará la función de valor de estado.
Ahora que puedes estimar la función de valor de estado para cualquier política, un siguiente paso natural es explorar si existen políticas mejores que la actual. Una forma de hacerlo es considerar tomar una acción diferente a en un estado s, y seguir la política actual después de eso. Si esto te resulta familiar, es porque es similar a cómo definimos la función de valor de acción:
qπ(s,a)=s′,r∑p(s′,r∣s,a)(r+γvπ(s′))Si este nuevo valor es mayor que el valor original del estado vπ(s), indica que tomar la acción a en el estado s y luego continuar con la política π conduce a mejores resultados que seguir estrictamente la política π. Dado que los estados son independientes, es óptimo seleccionar siempre la acción a cada vez que se encuentre el estado s. Por lo tanto, podemos construir una política mejorada π′, idéntica a π excepto que selecciona la acción a en el estado s, lo que sería superior a la política original π.
Teorema de mejora de la política
El razonamiento descrito anteriormente puede generalizarse como el teorema de mejora de la política:
⟹qπ(s,π′(s))≥vπ(s)vπ′(s)≥vπ(s)∀s∈S∀s∈SLa demostración de este teorema es relativamente sencilla y se puede lograr mediante una sustitución repetida:
vπ(s)≤qπ(s,π′(s))=Eπ′[Rt+1+γvπ(St+1)∣St=s]≤Eπ′[Rt+1+γqπ(St+1,π′(St+1))∣St=s]=Eπ′[Rt+1+γEπ′[Rt+2+γvπ(St+2)]∣St=s]=Eπ′[Rt+1+γRt+2+γ2vπ(St+2)∣St=s]...≤Eπ′[Rt+1+γRt+2+γ2Rt+3+...∣St=s]=vπ′(s)Estrategia de mejora
Aunque actualizar las acciones para ciertos estados puede conducir a mejoras, es más efectivo actualizar las acciones para todos los estados simultáneamente. Específicamente, para cada estado s, seleccionar la acción a que maximice el valor de acción qπ(s,a):
π′(s)←aargmaxqπ(s,a)←aargmaxs′,r∑p(s′,r∣s,a)(r+γvπ(s′))donde argmax (abreviatura de argumento del máximo) es un operador que devuelve el valor de la variable que maximiza una función dada.
La política codiciosa resultante, denotada por π′, cumple con las condiciones del teorema de mejora de la política por construcción, garantizando que π′ es al menos tan buena como la política original π, y típicamente mejor.
Si π′ es tan buena como, pero no mejor que π, entonces tanto π′ como π son políticas óptimas, ya que sus funciones de valor son iguales y satisfacen la ecuación de optimalidad de Bellman:
vπ(s)=amaxs′,r∑p(s′,r∣s,a)(r+γvπ(s′))¡Gracias por tus comentarios!