Aprende Generalización del Aprendizaje TD | Aprendizaje por Diferencia Temporal

Hasta ahora, se han considerado dos casos extremos de aprendizaje a partir de la experiencia:

TD(0): utiliza el retorno de un solo paso;
Monte Carlo: espera hasta el final del episodio para calcular el retorno.

¿Pero qué sucede si se desea algo intermedio? Algo que aproveche más información futura que TD(0), pero que no requiera esperar hasta el final del episodio como Monte Carlo.

Aquí es donde entran el aprendizaje TD de $n$ pasos y TD( $\lambda$ ): métodos que unifican y generalizan las ideas vistas hasta ahora.

$\Large n$ -Step TD Learning

La idea detrás del aprendizaje TD de $n$ pasos es sencilla: en lugar de utilizar solo el siguiente paso o todo el episodio, se utilizan los siguientes $n$ pasos y luego se aplica bootstrap:

G_t^{(n)} = R_{t+1} + \gamma R_{t+2} + ... + \gamma^{n-1} R_{t+n} + \gamma^n V(S_{t+1})

Esto permite un equilibrio:

Cuando $n = 1$ : es simplemente TD(0);
Cuando $n = \infty$ : se convierte en Monte Carlo.

Estos retornos pueden utilizarse para reemplazar el objetivo en la regla de actualización de TD(0):

V(S_t) \gets V(S_t) + \alpha\Bigl(G_t^{(n)} - V(S_t)\Bigr)

TD( $\Large\lambda$ )

TD( $\lambda$ ) es una idea ingeniosa que se basa en el aprendizaje TD de $n$ pasos: en lugar de elegir un $n$ fijo, combinamos todos los retornos de $n$ pasos juntos:

L_t = (1 - \lambda) \sum_{n=0}^{\infty} \lambda^{n-1}G_t^{(n)}

donde $\lambda \in [0, 1]$ controla la ponderación:

Si $\lambda = 0$ : solo retorno de un paso $\to$ TD(0);
Si $\lambda = 1$ : retorno completo $\to$ Monte Carlo;
Valores intermedios mezclan múltiples retornos de pasos.

Así, $\lambda$ actúa como un regulador de compromiso entre sesgo y varianza:

$\lambda$ bajo: más sesgo, menos varianza;
$\lambda$ alto: menos sesgo, más varianza.

$L_t$ puede utilizarse como objetivo de actualización en la regla de actualización TD(0):

V(S_t) \gets V(S_t) + \alpha\Bigl(L_t - V(S_t)\Bigr)

¿Todo estuvo claro?

¡Gracias por tus comentarios!

Sección 5. Capítulo 5

Pregunte a AI

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Desliza para mostrar el menú

Hasta ahora, se han considerado dos casos extremos de aprendizaje a partir de la experiencia:

TD(0): utiliza el retorno de un solo paso;
Monte Carlo: espera hasta el final del episodio para calcular el retorno.

¿Pero qué sucede si se desea algo intermedio? Algo que aproveche más información futura que TD(0), pero que no requiera esperar hasta el final del episodio como Monte Carlo.

Aquí es donde entran el aprendizaje TD de $n$ pasos y TD( $\lambda$ ): métodos que unifican y generalizan las ideas vistas hasta ahora.

$\Large n$ -Step TD Learning

La idea detrás del aprendizaje TD de $n$ pasos es sencilla: en lugar de utilizar solo el siguiente paso o todo el episodio, se utilizan los siguientes $n$ pasos y luego se aplica bootstrap:

G_t^{(n)} = R_{t+1} + \gamma R_{t+2} + ... + \gamma^{n-1} R_{t+n} + \gamma^n V(S_{t+1})

Esto permite un equilibrio:

Cuando $n = 1$ : es simplemente TD(0);
Cuando $n = \infty$ : se convierte en Monte Carlo.

Estos retornos pueden utilizarse para reemplazar el objetivo en la regla de actualización de TD(0):

V(S_t) \gets V(S_t) + \alpha\Bigl(G_t^{(n)} - V(S_t)\Bigr)

TD( $\Large\lambda$ )

TD( $\lambda$ ) es una idea ingeniosa que se basa en el aprendizaje TD de $n$ pasos: en lugar de elegir un $n$ fijo, combinamos todos los retornos de $n$ pasos juntos:

L_t = (1 - \lambda) \sum_{n=0}^{\infty} \lambda^{n-1}G_t^{(n)}

donde $\lambda \in [0, 1]$ controla la ponderación:

Si $\lambda = 0$ : solo retorno de un paso $\to$ TD(0);
Si $\lambda = 1$ : retorno completo $\to$ Monte Carlo;
Valores intermedios mezclan múltiples retornos de pasos.

Así, $\lambda$ actúa como un regulador de compromiso entre sesgo y varianza:

$\lambda$ bajo: más sesgo, menos varianza;
$\lambda$ alto: menos sesgo, más varianza.

$L_t$ puede utilizarse como objetivo de actualización en la regla de actualización TD(0):

V(S_t) \gets V(S_t) + \alpha\Bigl(L_t - V(S_t)\Bigr)

¿Todo estuvo claro?

¡Gracias por tus comentarios!

Sección 5. Capítulo 5

Generalización del Aprendizaje TD

n\Large nn-Step TD Learning

TD(λ\Large\lambdaλ)

Generalización del Aprendizaje TD

n\Large nn-Step TD Learning

TD(λ\Large\lambdaλ)

$\Large n$ -Step TD Learning

TD( $\Large\lambda$ )

$\Large n$ -Step TD Learning

TD( $\Large\lambda$ )