Aprende Ecuaciones de Bellman | Programación Dinámica

Definición

Una ecuación de Bellman es una ecuación funcional que define una función de valor en forma recursiva.

Para aclarar la definición:

Una ecuación funcional es una ecuación cuya solución es una función. Para la ecuación de Bellman, esta solución es la función de valor para la cual se formuló la ecuación;
Una forma recursiva significa que el valor en el estado actual se expresa en términos de los valores en los estados futuros.

En resumen, resolver la ecuación de Bellman proporciona la función de valor deseada, y derivar esta ecuación requiere identificar una relación recursiva entre los estados actuales y futuros.

Función de valor de estado

Como recordatorio, aquí está una función de valor de estado en forma compacta:

\def\E{\operatorname{\mathbb{E}}} v_\pi(s) = \E_\pi[G_t | S_t = s]

Para obtener la ecuación de Bellman para esta función de valor, expandamos el lado derecho de la ecuación y establezcamos una relación recursiva:

\def\E{\operatorname{\mathbb{E}}} \begin{aligned} v_\pi(s) &= \E_\pi[G_t | S_t = s]\\ &= \E_\pi[R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... | S_t = s]\\ &= \E_\pi[R_{t+1} + \gamma \sum_{k=0}^\infty \gamma^k R_{t+k+2} | S_t = s]\\ &= \E_\pi[R_{t+1} + \gamma G_{t+1} | S_t = s]\\ &= \sum_a \pi(a | s) \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma \E_\pi\Bigl[G_{t+1} | S_{t+1} = s'\Bigr]\Bigr)\\ &= \sum_a \pi(a | s) \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_\pi(s')\Bigr) \end{aligned}

La última ecuación en esta cadena es una ecuación de Bellman para la función de valor de estado.

Intuición

Para encontrar el valor de un estado $s$ , se debe:

Considerar todas las posibles acciones $a$ que se pueden tomar desde este estado, cada una ponderada por la probabilidad de elegir esa acción bajo la política actual $\pi(a | s)$ ;
Para cada acción $a$ , considerar todos los posibles siguientes estados $s'$ y recompensas $r$ , ponderados por su probabilidad $p(s', r | s, a)$ ;
Para cada uno de estos resultados, tomar la recompensa inmediata $r$ obtenida más el valor descontado del siguiente estado $\gamma v_\pi(s')$ .

Al sumar todas estas posibilidades, se obtiene el valor esperado total del estado $s$ bajo la política actual.

Función de Valor de Acción

Aquí se muestra una función de valor de acción en forma compacta:

\def\E{\operatorname{\mathbb{E}}} q_\pi(s, a) = \E_\pi[G_t | S_t = s, A_t = a]

La deducción de la ecuación de Bellman para esta función es bastante similar a la anterior:

\def\E{\operatorname{\mathbb{E}}} \begin{aligned} q_\pi(s, a) &= \E_\pi[G_t | S_t = s, A_t = a]\\ &= \E_\pi[R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... | S_t = s, A_t = a]\\ &= \E_\pi[R_{t+1} + \gamma \sum_{k=0}^\infty \gamma^k R_{t+k+2} | S_t = s, A_t = a]\\ &= \E_\pi[R_{t+1} + \gamma G_{t+1} | S_t = s, A_t = a]\\ &= \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma \E_\pi\Bigl[G_{t+1} | S_{t+1} = s'\Bigr]\Bigr)\\ &= \sum_{s', r} p(s', r | s, a)\Biggl(r + \gamma \sum_{a'} \pi(a' | s') \Bigl(\E_\pi\Bigl[G_{t+1} | S_{t+1} = s', A_{t+1} = a'\Bigr]\Bigr)\Biggr)\\ &= \sum_{s', r} p(s', r | s, a)\Biggl(r + \gamma \sum_{a'} \pi(a' | s') q(s', a')\Biggr) \end{aligned}

La última ecuación de esta cadena es una ecuación de Bellman para la función de valor de acción.

Intuición

Para encontrar el valor de un par estado-acción $(s, a)$ , se debe:

Considerar todos los posibles siguientes estados $s'$ y recompensas $r$ , ponderados por su probabilidad $p(s', r | s, a)$ ;
Para cada uno de estos resultados, tomar la recompensa inmediata $r$ obtenida más el valor descontado del siguiente estado;
Para calcular el valor del siguiente estado $s'$ , para todas las acciones $a'$ posibles desde el estado $s'$ , multiplicar el valor de la acción $q(s', a')$ por la probabilidad de elegir $a'$ en el estado $s'$ bajo la política actual $\pi(a' | s'$ . Luego, sumar todo para obtener el valor final.

Al sumar todas estas posibilidades, se obtiene el valor esperado total del par estado-acción $(s, a)$ bajo la política actual.

¿Todo estuvo claro?

¡Gracias por tus comentarios!

Sección 3. Capítulo 2

Pregunte a AI

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Suggested prompts:

Can you explain the difference between the state value function and the action value function?

How does the Bellman equation help in reinforcement learning?

Can you provide a simple example illustrating the Bellman equation?

Desliza para mostrar el menú

Definición

Una ecuación de Bellman es una ecuación funcional que define una función de valor en forma recursiva.

Para aclarar la definición:

Una ecuación funcional es una ecuación cuya solución es una función. Para la ecuación de Bellman, esta solución es la función de valor para la cual se formuló la ecuación;
Una forma recursiva significa que el valor en el estado actual se expresa en términos de los valores en los estados futuros.

Función de valor de estado

Como recordatorio, aquí está una función de valor de estado en forma compacta:

\def\E{\operatorname{\mathbb{E}}} v_\pi(s) = \E_\pi[G_t | S_t = s]

Para obtener la ecuación de Bellman para esta función de valor, expandamos el lado derecho de la ecuación y establezcamos una relación recursiva:

\def\E{\operatorname{\mathbb{E}}} \begin{aligned} v_\pi(s) &= \E_\pi[G_t | S_t = s]\\ &= \E_\pi[R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... | S_t = s]\\ &= \E_\pi[R_{t+1} + \gamma \sum_{k=0}^\infty \gamma^k R_{t+k+2} | S_t = s]\\ &= \E_\pi[R_{t+1} + \gamma G_{t+1} | S_t = s]\\ &= \sum_a \pi(a | s) \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma \E_\pi\Bigl[G_{t+1} | S_{t+1} = s'\Bigr]\Bigr)\\ &= \sum_a \pi(a | s) \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_\pi(s')\Bigr) \end{aligned}

La última ecuación en esta cadena es una ecuación de Bellman para la función de valor de estado.

Intuición

Para encontrar el valor de un estado $s$ , se debe:

Considerar todas las posibles acciones $a$ que se pueden tomar desde este estado, cada una ponderada por la probabilidad de elegir esa acción bajo la política actual $\pi(a | s)$ ;
Para cada acción $a$ , considerar todos los posibles siguientes estados $s'$ y recompensas $r$ , ponderados por su probabilidad $p(s', r | s, a)$ ;
Para cada uno de estos resultados, tomar la recompensa inmediata $r$ obtenida más el valor descontado del siguiente estado $\gamma v_\pi(s')$ .

Al sumar todas estas posibilidades, se obtiene el valor esperado total del estado $s$ bajo la política actual.

Función de Valor de Acción

Aquí se muestra una función de valor de acción en forma compacta:

\def\E{\operatorname{\mathbb{E}}} q_\pi(s, a) = \E_\pi[G_t | S_t = s, A_t = a]

La deducción de la ecuación de Bellman para esta función es bastante similar a la anterior:

\def\E{\operatorname{\mathbb{E}}} \begin{aligned} q_\pi(s, a) &= \E_\pi[G_t | S_t = s, A_t = a]\\ &= \E_\pi[R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... | S_t = s, A_t = a]\\ &= \E_\pi[R_{t+1} + \gamma \sum_{k=0}^\infty \gamma^k R_{t+k+2} | S_t = s, A_t = a]\\ &= \E_\pi[R_{t+1} + \gamma G_{t+1} | S_t = s, A_t = a]\\ &= \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma \E_\pi\Bigl[G_{t+1} | S_{t+1} = s'\Bigr]\Bigr)\\ &= \sum_{s', r} p(s', r | s, a)\Biggl(r + \gamma \sum_{a'} \pi(a' | s') \Bigl(\E_\pi\Bigl[G_{t+1} | S_{t+1} = s', A_{t+1} = a'\Bigr]\Bigr)\Biggr)\\ &= \sum_{s', r} p(s', r | s, a)\Biggl(r + \gamma \sum_{a'} \pi(a' | s') q(s', a')\Biggr) \end{aligned}

La última ecuación de esta cadena es una ecuación de Bellman para la función de valor de acción.

Intuición

Para encontrar el valor de un par estado-acción $(s, a)$ , se debe:

Considerar todos los posibles siguientes estados $s'$ y recompensas $r$ , ponderados por su probabilidad $p(s', r | s, a)$ ;
Para cada uno de estos resultados, tomar la recompensa inmediata $r$ obtenida más el valor descontado del siguiente estado;
Para calcular el valor del siguiente estado $s'$ , para todas las acciones $a'$ posibles desde el estado $s'$ , multiplicar el valor de la acción $q(s', a')$ por la probabilidad de elegir $a'$ en el estado $s'$ bajo la política actual $\pi(a' | s'$ . Luego, sumar todo para obtener el valor final.

Al sumar todas estas posibilidades, se obtiene el valor esperado total del par estado-acción $(s, a)$ bajo la política actual.

¿Todo estuvo claro?

¡Gracias por tus comentarios!

Sección 3. Capítulo 2