Contenido del Curso
Introducción al Aprendizaje por Refuerzo
Introducción al Aprendizaje por Refuerzo
Condiciones de Optimalidad
En el capítulo anterior, aprendiste sobre las ecuaciones de Bellman para las funciones de valor de estado y valor de acción-estado. Estas ecuaciones describen cómo los valores de los estados pueden definirse recursivamente a través de los valores de otros estados, dependiendo de una política dada. Sin embargo, no todas las políticas son igual de efectivas. De hecho, las funciones de valor proporcionan un orden parcial para las políticas, que puede describirse de la siguiente manera:
Así, la política es mejor o igual que la política si para todos los estados posibles, el retorno esperado de la política no es menor que el retorno esperado de la política .
Un orden parcial sigue las reglas habituales de ordenamiento pero no obliga a comparar todos los pares. En nuestro caso, solo podemos clasificar dos políticas si producen los mismos resultados, o si una claramente supera a la otra. En todos los demás casos, las políticas permanecen incomparables.
Política Óptima
Para cualquier MDP, existe al menos una política que es tan buena como, o mejor que, todas las demás políticas. Esta política se denomina política óptima . Aunque puede haber muchas políticas óptimas, todas se representan como .
¿Por qué siempre existe una política óptima?
Quizás te preguntes por qué siempre existe una política óptima para cualquier MDP. Es una excelente pregunta, y la intuición detrás de esto es sorprendentemente simple. Recuerda que los estados en un MDP capturan completamente la condición del entorno. Esto implica que cada estado es independiente de los demás: la acción elegida en un estado no afecta las recompensas ni los resultados alcanzables en otro. Por lo tanto, al seleccionar la acción óptima en cada estado por separado, se llega naturalmente a la mejor secuencia global de acciones en todo el proceso. Y este conjunto de acciones óptimas en cada estado constituye una política óptima.
Además, siempre existe al menos una política que es tanto óptima como determinista. De hecho, si para algún estado , dos acciones y producen el mismo retorno esperado, seleccionar solo una de ellas no afectará la optimalidad de la política. Aplicar este principio en cada estado hará que la política sea determinista sin perder su optimalidad.
Funciones de Valor Óptimas
Las políticas óptimas comparten las mismas funciones de valor — un hecho que se vuelve evidente al considerar cómo se comparan las políticas. Esto significa que las políticas óptimas comparten tanto la función de valor de estado como la función de valor de acción.
Además, las funciones de valor óptimas tienen sus propias ecuaciones de Bellman que pueden escribirse sin hacer referencia a ninguna política específica. Estas ecuaciones se denominan ecuaciones de optimalidad de Bellman.
Función de valor de estado óptima
La función de valor de estado óptima (o ) representa el retorno esperado máximo alcanzable desde un cierto estado siguiendo una política óptima.
Se puede definir matemáticamente de la siguiente manera:
La ecuación de optimalidad de Bellman para esta función de valor se puede derivar así:
Intuición
Como ya se sabe, siempre existe al menos una política que es tanto óptima como determinista. Dicha política, para cada estado, seleccionaría de manera consistente una acción particular que maximiza los retornos esperados. Por lo tanto, la probabilidad de elegir esta acción óptima siempre sería 1, y la probabilidad de elegir cualquier otra acción sería 0. Dado esto, la ecuación de Bellman original ya no necesita el operador de suma. En su lugar, dado que sabemos que siempre se seleccionará la mejor acción posible, simplemente se puede reemplazar la suma tomando un máximo sobre todas las acciones disponibles.
Función de valor óptima de acción
Función de valor óptima de acción (o ) representa el retorno esperado máximo que se puede lograr al tomar una determinada acción en un determinado estado y seguir la política óptima posteriormente.
Se puede definir matemáticamente de la siguiente manera:
Ecuación de optimalidad de Bellman para esta función de valor se puede derivar de la siguiente manera:
Intuición
De manera similar a la función de valor de estado, la suma puede ser reemplazada por tomar el máximo sobre todas las acciones disponibles.
¡Gracias por tus comentarios!