Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende Iteración de Valores | Programación Dinámica
Introducción al Aprendizaje por Refuerzo

bookIteración de Valores

Aunque la iteración de políticas es un enfoque eficaz para resolver MDPs, presenta una desventaja significativa: cada iteración implica un paso separado de evaluación de la política. Cuando la evaluación de la política se realiza de forma iterativa, requiere múltiples recorridos por todo el espacio de estados, lo que genera una sobrecarga computacional considerable y tiempos de cálculo más prolongados.

Una buena alternativa es la iteración de valores, un método que fusiona la evaluación de la política y la mejora de la política en un solo paso. Este método actualiza la función de valor directamente hasta que converge a la función de valor óptima. Una vez lograda la convergencia, la política óptima puede derivarse directamente de esta función de valor óptima.

¿Cómo funciona?

La iteración de valores funciona realizando solo una actualización durante la evaluación de la política, antes de proceder a la mejora de la política. Esto da lugar a la siguiente fórmula de actualización:

vk+1(s)maxas,rp(s,rs,a)(r+γvk(s))sSv_{k+1}(s) \gets \max_a \sum_{s',r}p(s',r|s,a)\Bigl(r+\gamma v_k(s')\Bigr) \qquad \forall s \in S

Al convertir la ecuación de optimalidad de Bellman en una regla de actualización, la evaluación y la mejora de la política se fusionan en un solo paso.

Pseudocódigo

question mark

Según el pseudocódigo, ¿cuándo se detiene la iteración de valores?

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 3. Capítulo 8

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Awesome!

Completion rate improved to 2.7

bookIteración de Valores

Desliza para mostrar el menú

Aunque la iteración de políticas es un enfoque eficaz para resolver MDPs, presenta una desventaja significativa: cada iteración implica un paso separado de evaluación de la política. Cuando la evaluación de la política se realiza de forma iterativa, requiere múltiples recorridos por todo el espacio de estados, lo que genera una sobrecarga computacional considerable y tiempos de cálculo más prolongados.

Una buena alternativa es la iteración de valores, un método que fusiona la evaluación de la política y la mejora de la política en un solo paso. Este método actualiza la función de valor directamente hasta que converge a la función de valor óptima. Una vez lograda la convergencia, la política óptima puede derivarse directamente de esta función de valor óptima.

¿Cómo funciona?

La iteración de valores funciona realizando solo una actualización durante la evaluación de la política, antes de proceder a la mejora de la política. Esto da lugar a la siguiente fórmula de actualización:

vk+1(s)maxas,rp(s,rs,a)(r+γvk(s))sSv_{k+1}(s) \gets \max_a \sum_{s',r}p(s',r|s,a)\Bigl(r+\gamma v_k(s')\Bigr) \qquad \forall s \in S

Al convertir la ecuación de optimalidad de Bellman en una regla de actualización, la evaluación y la mejora de la política se fusionan en un solo paso.

Pseudocódigo

question mark

Según el pseudocódigo, ¿cuándo se detiene la iteración de valores?

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 3. Capítulo 8
some-alt