Contenido del Curso
Introducción al Aprendizaje por Refuerzo
Introducción al Aprendizaje por Refuerzo
Ecuaciones de Bellman
Una ecuación de Bellman es una ecuación funcional que define una función de valor en forma recursiva.
Para aclarar la definición:
- Una ecuación funcional es una ecuación cuya solución es una función. Para la ecuación de Bellman, esta solución es la función de valor para la cual se formuló la ecuación;
- Una forma recursiva significa que el valor en el estado actual se expresa en términos de los valores en estados futuros.
En resumen, resolver la ecuación de Bellman proporciona la función de valor deseada, y derivar esta ecuación requiere identificar una relación recursiva entre los estados actuales y futuros.
Función de valor de estado
Como recordatorio, aquí está una función de valor de estado en forma compacta:
Para obtener la ecuación de Bellman para esta función de valor, expandamos el lado derecho de la ecuación y establezcamos una relación recursiva:
La última ecuación en esta cadena es una ecuación de Bellman para la función de valor de estado.
Intuición
Para encontrar el valor de un estado , se debe:
- Considerar todas las posibles acciones que se pueden tomar desde este estado, cada una ponderada por la probabilidad de elegir esa acción bajo la política actual ;
- Para cada acción , considerar todos los posibles siguientes estados y recompensas , ponderados por su probabilidad ;
- Para cada uno de estos resultados, tomar la recompensa inmediata obtenida más el valor descontado del siguiente estado .
Al sumar todas estas posibilidades, se obtiene el valor esperado total del estado bajo la política actual.
Función de Valor de Acción
Aquí se presenta una función de valor de acción en forma compacta:
La deducción de la ecuación de Bellman para esta función es bastante similar a la anterior:
La última ecuación de esta cadena es una ecuación de Bellman para la función de valor de acción.
Intuición
Para encontrar el valor de un par estado-acción , se debe:
- Considerar todos los posibles siguientes estados y recompensas , ponderados por su probabilidad ;
- Para cada uno de estos resultados, tomar la recompensa inmediata obtenida más el valor descontado del siguiente estado;
- Para calcular el valor del siguiente estado , para todas las acciones posibles desde el estado , multiplicar el valor de la acción por la probabilidad de elegir en el estado bajo la política actual . Luego, sumar todo para obtener el valor final.
Al sumar todas estas posibilidades, se obtiene el valor esperado total del par estado-acción bajo la política actual.
¡Gracias por tus comentarios!