Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende Implementaciones Incrementales | Métodos de Monte Carlo
Introducción al Aprendizaje por Refuerzo
course content

Contenido del Curso

Introducción al Aprendizaje por Refuerzo

Introducción al Aprendizaje por Refuerzo

1. Teoría Central de RL
2. Problema del Bandido de Varios Brazos
3. Programación Dinámica
4. Métodos de Monte Carlo
5. Aprendizaje por Diferencia Temporal

book
Implementaciones Incrementales

Almacenar cada retorno para cada par estado-acción puede agotar rápidamente la memoria y aumentar significativamente el tiempo de cómputo, especialmente en entornos grandes. Esta limitación afecta tanto a los algoritmos de control Monte Carlo on-policy como off-policy. Para abordar este problema, se adoptan estrategias de cálculo incremental, similares a las utilizadas en los algoritmos de multi-armed bandit. Estos métodos permiten que las estimaciones de valor se actualicen en tiempo real, sin necesidad de conservar todo el historial de retornos.

Control Monte Carlo On-Policy

Para el método on-policy, la estrategia de actualización es similar a la utilizada en los algoritmos MAB:

Q(s,a)Q(s,a)+α(GQ(s,a))Q(s, a) \gets Q(s, a) + \alpha (G - Q(s, a))

donde α=1N(s,a)\displaystyle \alpha = \frac{1}{N(s, a)} para la estimación de la media. Los únicos valores que deben almacenarse son las estimaciones actuales de los valores de acción Q(s,a)Q(s, a) y la cantidad de veces que el par estado-acción (s,a)(s, a) ha sido visitado N(s,a)N(s, a).

Pseudocódigo

Control Monte Carlo Fuera de Política

Para el método fuera de política con muestreo de importancia ordinario todo es igual que para el método en política.

Una situación más interesante ocurre con el muestreo de importancia ponderado. La ecuación se ve igual:

Q(s,a)Q(s,a)+α(GQ(s,a))Q(s, a) \gets Q(s, a) + \alpha (G - Q(s, a))

pero α=1N(s,a)\displaystyle \alpha = \frac{1}{N(s, a)} no puede usarse porque:

  1. Cada retorno está ponderado por ρ\rho;
  2. La suma final no se divide por N(s,a)N(s, a), sino por ρ(s,a)\sum \rho(s, a).

El valor de α\alpha que realmente puede usarse en este caso es igual a WC(s,a)\displaystyle \frac{W}{C(s,a)} donde:

  • WW es el ρ\rho para la trayectoria actual;
  • C(s,a)C(s, a) es igual a ρ(s,a)\sum \rho(s, a).

Y cada vez que el par estado-acción (s,a)(s, a) ocurre, el ρ\rho de la trayectoria actual se suma a C(s,a)C(s, a):

C(s,a)C(s,a)+WC(s, a) \gets C(s, a) + W

Pseudocódigo

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 4. Capítulo 7

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

course content

Contenido del Curso

Introducción al Aprendizaje por Refuerzo

Introducción al Aprendizaje por Refuerzo

1. Teoría Central de RL
2. Problema del Bandido de Varios Brazos
3. Programación Dinámica
4. Métodos de Monte Carlo
5. Aprendizaje por Diferencia Temporal

book
Implementaciones Incrementales

Almacenar cada retorno para cada par estado-acción puede agotar rápidamente la memoria y aumentar significativamente el tiempo de cómputo, especialmente en entornos grandes. Esta limitación afecta tanto a los algoritmos de control Monte Carlo on-policy como off-policy. Para abordar este problema, se adoptan estrategias de cálculo incremental, similares a las utilizadas en los algoritmos de multi-armed bandit. Estos métodos permiten que las estimaciones de valor se actualicen en tiempo real, sin necesidad de conservar todo el historial de retornos.

Control Monte Carlo On-Policy

Para el método on-policy, la estrategia de actualización es similar a la utilizada en los algoritmos MAB:

Q(s,a)Q(s,a)+α(GQ(s,a))Q(s, a) \gets Q(s, a) + \alpha (G - Q(s, a))

donde α=1N(s,a)\displaystyle \alpha = \frac{1}{N(s, a)} para la estimación de la media. Los únicos valores que deben almacenarse son las estimaciones actuales de los valores de acción Q(s,a)Q(s, a) y la cantidad de veces que el par estado-acción (s,a)(s, a) ha sido visitado N(s,a)N(s, a).

Pseudocódigo

Control Monte Carlo Fuera de Política

Para el método fuera de política con muestreo de importancia ordinario todo es igual que para el método en política.

Una situación más interesante ocurre con el muestreo de importancia ponderado. La ecuación se ve igual:

Q(s,a)Q(s,a)+α(GQ(s,a))Q(s, a) \gets Q(s, a) + \alpha (G - Q(s, a))

pero α=1N(s,a)\displaystyle \alpha = \frac{1}{N(s, a)} no puede usarse porque:

  1. Cada retorno está ponderado por ρ\rho;
  2. La suma final no se divide por N(s,a)N(s, a), sino por ρ(s,a)\sum \rho(s, a).

El valor de α\alpha que realmente puede usarse en este caso es igual a WC(s,a)\displaystyle \frac{W}{C(s,a)} donde:

  • WW es el ρ\rho para la trayectoria actual;
  • C(s,a)C(s, a) es igual a ρ(s,a)\sum \rho(s, a).

Y cada vez que el par estado-acción (s,a)(s, a) ocurre, el ρ\rho de la trayectoria actual se suma a C(s,a)C(s, a):

C(s,a)C(s,a)+WC(s, a) \gets C(s, a) + W

Pseudocódigo

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 4. Capítulo 7
some-alt