Iteración de Valores
Aunque la iteración de políticas es un enfoque eficaz para resolver MDPs, presenta una desventaja significativa: cada iteración implica un paso separado de evaluación de la política. Cuando la evaluación de la política se realiza de forma iterativa, requiere múltiples recorridos por todo el espacio de estados, lo que genera una sobrecarga computacional considerable y tiempos de cálculo más prolongados.
Una buena alternativa es la iteración de valores, un método que fusiona la evaluación de la política y la mejora de la política en un solo paso. Este método actualiza la función de valor directamente hasta que converge a la función de valor óptima. Una vez lograda la convergencia, la política óptima puede derivarse directamente de esta función de valor óptima.
¿Cómo funciona?
La iteración de valores funciona realizando solo una actualización durante la evaluación de la política, antes de proceder a la mejora de la política. Esto da lugar a la siguiente fórmula de actualización:
vk+1(s)←amaxs′,r∑p(s′,r∣s,a)(r+γvk(s′))∀s∈SAl convertir la ecuación de optimalidad de Bellman en una regla de actualización, la evaluación y la mejora de la política se fusionan en un solo paso.
Pseudocódigo
¡Gracias por tus comentarios!
Pregunte a AI
Pregunte a AI
Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla
Awesome!
Completion rate improved to 2.7
Iteración de Valores
Desliza para mostrar el menú
Aunque la iteración de políticas es un enfoque eficaz para resolver MDPs, presenta una desventaja significativa: cada iteración implica un paso separado de evaluación de la política. Cuando la evaluación de la política se realiza de forma iterativa, requiere múltiples recorridos por todo el espacio de estados, lo que genera una sobrecarga computacional considerable y tiempos de cálculo más prolongados.
Una buena alternativa es la iteración de valores, un método que fusiona la evaluación de la política y la mejora de la política en un solo paso. Este método actualiza la función de valor directamente hasta que converge a la función de valor óptima. Una vez lograda la convergencia, la política óptima puede derivarse directamente de esta función de valor óptima.
¿Cómo funciona?
La iteración de valores funciona realizando solo una actualización durante la evaluación de la política, antes de proceder a la mejora de la política. Esto da lugar a la siguiente fórmula de actualización:
vk+1(s)←amaxs′,r∑p(s′,r∣s,a)(r+γvk(s′))∀s∈SAl convertir la ecuación de optimalidad de Bellman en una regla de actualización, la evaluación y la mejora de la política se fusionan en un solo paso.
Pseudocódigo
¡Gracias por tus comentarios!