Ecuaciones de Bellman
Una ecuación de Bellman es una ecuación funcional que define una función de valor en forma recursiva.
Para aclarar la definición:
- Una ecuación funcional es una ecuación cuya solución es una función. Para la ecuación de Bellman, esta solución es la función de valor para la cual se formuló la ecuación;
- Una forma recursiva significa que el valor en el estado actual se expresa en términos de los valores en estados futuros.
En resumen, resolver la ecuación de Bellman proporciona la función de valor deseada, y derivar esta ecuación requiere identificar una relación recursiva entre los estados actuales y futuros.
Función de valor de estado
Como recordatorio, aquí está una función de valor de estado en forma compacta:
vπ(s)=Eπ[Gt∣St=s]Para obtener la ecuación de Bellman para esta función de valor, expandamos el lado derecho de la ecuación y establezcamos una relación recursiva:
vπ(s)=Eπ[Gt∣St=s]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s]=Eπ[Rt+1+γk=0∑∞γkRt+k+2∣St=s]=Eπ[Rt+1+γGt+1∣St=s]=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γEπ[Gt+1∣St+1=s′])=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γvπ(s′))La última ecuación en esta cadena es una ecuación de Bellman para la función de valor de estado.
Intuición
Para encontrar el valor de un estado s, se debe:
- Considerar todas las posibles acciones a que se pueden tomar desde este estado, cada una ponderada por la probabilidad de elegir esa acción bajo la política actual π(a∣s);
- Para cada acción a, considerar todos los posibles siguientes estados s′ y recompensas r, ponderados por su probabilidad p(s′,r∣s,a);
- Para cada uno de estos resultados, tomar la recompensa inmediata r obtenida más el valor descontado del siguiente estado γvπ(s′).
Al sumar todas estas posibilidades, se obtiene el valor esperado total del estado s bajo la política actual.
Función de Valor de Acción
Aquí se presenta una función de valor de acción en forma compacta:
qπ(s,a)=Eπ[Gt∣St=s,At=a]La deducción de la ecuación de Bellman para esta función es bastante similar a la anterior:
qπ(s,a)=Eπ[Gt∣St=s,At=a]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s,At=a]=Eπ[Rt+1+γk=0∑∞γkRt+k+2∣St=s,At=a]=Eπ[Rt+1+γGt+1∣St=s,At=a]=s′,r∑p(s′,r∣s,a)(r+γEπ[Gt+1∣St+1=s′])=s′,r∑p(s′,r∣s,a)(r+γa′∑π(a′∣s′)(Eπ[Gt+1∣St+1=s′,At+1=a′]))=s′,r∑p(s′,r∣s,a)(r+γa′∑π(a′∣s′)q(s′,a′))La última ecuación de esta cadena es una ecuación de Bellman para la función de valor de acción.
Intuición
Para encontrar el valor de un par estado-acción (s,a), se debe:
- Considerar todos los posibles siguientes estados s′ y recompensas r, ponderados por su probabilidad p(s′,r∣s,a);
- Para cada uno de estos resultados, tomar la recompensa inmediata r obtenida más el valor descontado del siguiente estado;
- Para calcular el valor del siguiente estado s′, para todas las acciones a′ posibles desde el estado s′, multiplicar el valor de la acción q(s′,a′) por la probabilidad de elegir a′ en el estado s′ bajo la política actual π(a′∣s′. Luego, sumar todo para obtener el valor final.
Al sumar todas estas posibilidades, se obtiene el valor esperado total del par estado-acción (s,a) bajo la política actual.
¡Gracias por tus comentarios!
Pregunte a AI
Pregunte a AI
Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla
Awesome!
Completion rate improved to 2.7
Ecuaciones de Bellman
Desliza para mostrar el menú
Una ecuación de Bellman es una ecuación funcional que define una función de valor en forma recursiva.
Para aclarar la definición:
- Una ecuación funcional es una ecuación cuya solución es una función. Para la ecuación de Bellman, esta solución es la función de valor para la cual se formuló la ecuación;
- Una forma recursiva significa que el valor en el estado actual se expresa en términos de los valores en estados futuros.
En resumen, resolver la ecuación de Bellman proporciona la función de valor deseada, y derivar esta ecuación requiere identificar una relación recursiva entre los estados actuales y futuros.
Función de valor de estado
Como recordatorio, aquí está una función de valor de estado en forma compacta:
vπ(s)=Eπ[Gt∣St=s]Para obtener la ecuación de Bellman para esta función de valor, expandamos el lado derecho de la ecuación y establezcamos una relación recursiva:
vπ(s)=Eπ[Gt∣St=s]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s]=Eπ[Rt+1+γk=0∑∞γkRt+k+2∣St=s]=Eπ[Rt+1+γGt+1∣St=s]=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γEπ[Gt+1∣St+1=s′])=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γvπ(s′))La última ecuación en esta cadena es una ecuación de Bellman para la función de valor de estado.
Intuición
Para encontrar el valor de un estado s, se debe:
- Considerar todas las posibles acciones a que se pueden tomar desde este estado, cada una ponderada por la probabilidad de elegir esa acción bajo la política actual π(a∣s);
- Para cada acción a, considerar todos los posibles siguientes estados s′ y recompensas r, ponderados por su probabilidad p(s′,r∣s,a);
- Para cada uno de estos resultados, tomar la recompensa inmediata r obtenida más el valor descontado del siguiente estado γvπ(s′).
Al sumar todas estas posibilidades, se obtiene el valor esperado total del estado s bajo la política actual.
Función de Valor de Acción
Aquí se presenta una función de valor de acción en forma compacta:
qπ(s,a)=Eπ[Gt∣St=s,At=a]La deducción de la ecuación de Bellman para esta función es bastante similar a la anterior:
qπ(s,a)=Eπ[Gt∣St=s,At=a]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s,At=a]=Eπ[Rt+1+γk=0∑∞γkRt+k+2∣St=s,At=a]=Eπ[Rt+1+γGt+1∣St=s,At=a]=s′,r∑p(s′,r∣s,a)(r+γEπ[Gt+1∣St+1=s′])=s′,r∑p(s′,r∣s,a)(r+γa′∑π(a′∣s′)(Eπ[Gt+1∣St+1=s′,At+1=a′]))=s′,r∑p(s′,r∣s,a)(r+γa′∑π(a′∣s′)q(s′,a′))La última ecuación de esta cadena es una ecuación de Bellman para la función de valor de acción.
Intuición
Para encontrar el valor de un par estado-acción (s,a), se debe:
- Considerar todos los posibles siguientes estados s′ y recompensas r, ponderados por su probabilidad p(s′,r∣s,a);
- Para cada uno de estos resultados, tomar la recompensa inmediata r obtenida más el valor descontado del siguiente estado;
- Para calcular el valor del siguiente estado s′, para todas las acciones a′ posibles desde el estado s′, multiplicar el valor de la acción q(s′,a′) por la probabilidad de elegir a′ en el estado s′ bajo la política actual π(a′∣s′. Luego, sumar todo para obtener el valor final.
Al sumar todas estas posibilidades, se obtiene el valor esperado total del par estado-acción (s,a) bajo la política actual.
¡Gracias por tus comentarios!