Aprende Iteración de Valores | Programación Dinámica

Aunque la iteración de políticas es un enfoque eficaz para resolver MDPs, presenta una desventaja significativa: cada iteración implica una etapa separada de evaluación de políticas. Cuando la evaluación de políticas se realiza de forma iterativa, requiere múltiples recorridos por todo el espacio de estados, lo que genera una sobrecarga computacional considerable y tiempos de cálculo más prolongados.

Una buena alternativa es la iteración de valores, un método que fusiona la evaluación de políticas y la mejora de políticas en un solo paso. Este método actualiza directamente la función de valor hasta que converge a la función de valor óptima. Una vez alcanzada la convergencia, la política óptima puede derivarse directamente de esta función de valor óptima.

¿Cómo funciona?

La iteración de valores funciona realizando solo una actualización durante la evaluación de políticas, antes de proceder a la mejora de políticas. Esto da lugar a la siguiente fórmula de actualización:

v_{k+1}(s) \gets \max_a \sum_{s',r}p(s',r|s,a)\Bigl(r+\gamma v_k(s')\Bigr) \qquad \forall s \in S

Al convertir la ecuación de optimalidad de Bellman en una regla de actualización, la evaluación de políticas y la mejora de políticas se fusionan en un solo paso.

Pseudocódigo

¿Todo estuvo claro?

¡Gracias por tus comentarios!

Sección 3. Capítulo 8

Pregunte a AI

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Suggested prompts:

Can you explain the steps in the value iteration pseudocode?

What is the difference between value iteration and policy iteration?

How do you know when value iteration has converged?