Contenido del Curso
Introducción al Aprendizaje por Refuerzo
Introducción al Aprendizaje por Refuerzo
Mejora de Políticas
Mejora de la política es un proceso de optimización de la política basado en las estimaciones actuales de la función de valor.
Al igual que con la evaluación de la política, la mejora de la política puede trabajar tanto con la función de valor de estado como con la función de valor de acción. Sin embargo, para los métodos de programación dinámica, se utilizará la función de valor de estado.
Ahora que puedes estimar la función de valor de estado para cualquier política, un siguiente paso natural es explorar si existen políticas mejores que la actual. Una forma de hacerlo es considerar tomar una acción diferente en un estado , y seguir la política actual después de eso. Si esto te resulta familiar, es porque es similar a cómo definimos la función de valor de acción:
Si este nuevo valor es mayor que el valor original del estado , indica que tomar la acción en el estado y luego continuar con la política conduce a mejores resultados que seguir estrictamente la política . Dado que los estados son independientes, es óptimo seleccionar siempre la acción cada vez que se encuentre el estado . Por lo tanto, podemos construir una política mejorada , idéntica a excepto que selecciona la acción en el estado , lo que sería superior a la política original .
Teorema de mejora de la política
El razonamiento descrito anteriormente puede generalizarse como el teorema de mejora de la política:
La demostración de este teorema es relativamente sencilla y se puede lograr mediante una sustitución repetida:
Estrategia de mejora
Aunque actualizar las acciones para ciertos estados puede conducir a mejoras, es más efectivo actualizar las acciones para todos los estados simultáneamente. Específicamente, para cada estado , seleccionar la acción que maximice el valor de acción :
donde (abreviatura de argumento del máximo) es un operador que devuelve el valor de la variable que maximiza una función dada.
La política codiciosa resultante, denotada por , cumple con las condiciones del teorema de mejora de la política por construcción, garantizando que es al menos tan buena como la política original , y típicamente mejor.
Si es tan buena como, pero no mejor que , entonces tanto como son políticas óptimas, ya que sus funciones de valor son iguales y satisfacen la ecuación de optimalidad de Bellman:
¡Gracias por tus comentarios!