Contenido del Curso
Introducción al Aprendizaje por Refuerzo
Introducción al Aprendizaje por Refuerzo
Iteración de Valores
Aunque la iteración de políticas es un enfoque eficaz para resolver MDPs, presenta una desventaja significativa: cada iteración implica un paso separado de evaluación de políticas. Cuando la evaluación de políticas se realiza de manera iterativa, requiere múltiples recorridos sobre todo el espacio de estados, lo que genera una sobrecarga computacional considerable y tiempos de cálculo más prolongados.
Una buena alternativa es la iteración de valores, un método que fusiona la evaluación de políticas y la mejora de políticas en un solo paso. Este método actualiza directamente la función de valor hasta que converge a la función de valor óptima. Una vez alcanzada la convergencia, la política óptima puede derivarse directamente de esta función de valor óptima.
¿Cómo funciona?
La iteración de valores funciona realizando solo una actualización durante la evaluación de políticas, antes de proceder a la mejora de políticas. Esto da lugar a la siguiente fórmula de actualización:
Al convertir la ecuación de optimalidad de Bellman en una regla de actualización, la evaluación de políticas y la mejora de políticas se combinan en un solo paso.
Pseudocódigo
¡Gracias por tus comentarios!