Contenido del Curso
Introducción al Aprendizaje por Refuerzo
Introducción al Aprendizaje por Refuerzo
Implementaciones Incrementales
Almacenar cada retorno para cada par estado-acción puede agotar rápidamente la memoria y aumentar significativamente el tiempo de cómputo, especialmente en entornos grandes. Esta limitación afecta tanto a los algoritmos de control Monte Carlo on-policy como off-policy. Para abordar este problema, se adoptan estrategias de cálculo incremental, similares a las utilizadas en los algoritmos de multi-armed bandit. Estos métodos permiten que las estimaciones de valor se actualicen en tiempo real, sin necesidad de conservar todo el historial de retornos.
Control Monte Carlo On-Policy
Para el método on-policy, la estrategia de actualización es similar a la utilizada en los algoritmos MAB:
donde para la estimación de la media. Los únicos valores que deben almacenarse son las estimaciones actuales de los valores de acción y la cantidad de veces que el par estado-acción ha sido visitado .
Pseudocódigo
Control Monte Carlo Fuera de Política
Para el método fuera de política con muestreo de importancia ordinario todo es igual que para el método en política.
Una situación más interesante ocurre con el muestreo de importancia ponderado. La ecuación se ve igual:
pero no puede usarse porque:
- Cada retorno está ponderado por ;
- La suma final no se divide por , sino por .
El valor de que realmente puede usarse en este caso es igual a donde:
- es el para la trayectoria actual;
- es igual a .
Y cada vez que el par estado-acción ocurre, el de la trayectoria actual se suma a :
Pseudocódigo
¡Gracias por tus comentarios!