Generalización del Aprendizaje TD
Hasta ahora, hemos considerado dos casos extremos de aprendizaje a partir de la experiencia:
- TD(0): utiliza el retorno de un solo paso;
- Monte Carlo: espera hasta el final del episodio para calcular el retorno.
¿Pero qué sucede si queremos algo intermedio? Algo que aproveche más información futura que TD(0), pero que no requiera esperar hasta el final del episodio como Monte Carlo.
Aquí es donde entran el aprendizaje TD de n pasos y TD(λ): métodos que unifican y generalizan las ideas que hemos visto hasta ahora.
n-Paso Aprendizaje TD
La idea detrás del aprendizaje TD de n pasos es sencilla: en lugar de usar solo el siguiente paso o todo el episodio, utilizamos los siguientes n pasos y luego aplicamos bootstrap:
Gt(n)=Rt+1+γRt+2+...+γn−1Rt+n+γnV(St+1)Esto permite un equilibrio:
- Cuando n=1: es simplemente TD(0);
- Cuando n=∞: se convierte en Monte Carlo.
Estos retornos pueden utilizarse para reemplazar el objetivo en la regla de actualización de TD(0):
V(St)←V(St)+α(Gt(n)−V(St))TD(λ)
TD(λ) es una idea ingeniosa que se basa en el aprendizaje TD de n pasos: en lugar de elegir un n fijo, combinamos todos los retornos de n pasos juntos:
Lt=(1−λ)n=0∑∞λn−1Gt(n)donde λ∈[0,1] controla la ponderación:
- Si λ=0: solo el retorno de un paso → TD(0);
- Si λ=1: retorno completo → Monte Carlo;
- Valores intermedios mezclan múltiples retornos de varios pasos.
Así, λ actúa como un ajuste de compromiso entre sesgo y varianza:
- λ bajo: más sesgo, menos varianza;
- λ alto: menos sesgo, más varianza.
Lt puede utilizarse como objetivo de actualización en la regla de actualización TD(0):
V(St)←V(St)+α(Lt−V(St))¡Gracias por tus comentarios!
Pregunte a AI
Pregunte a AI
Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla
Awesome!
Completion rate improved to 2.7
Generalización del Aprendizaje TD
Desliza para mostrar el menú
Hasta ahora, hemos considerado dos casos extremos de aprendizaje a partir de la experiencia:
- TD(0): utiliza el retorno de un solo paso;
- Monte Carlo: espera hasta el final del episodio para calcular el retorno.
¿Pero qué sucede si queremos algo intermedio? Algo que aproveche más información futura que TD(0), pero que no requiera esperar hasta el final del episodio como Monte Carlo.
Aquí es donde entran el aprendizaje TD de n pasos y TD(λ): métodos que unifican y generalizan las ideas que hemos visto hasta ahora.
n-Paso Aprendizaje TD
La idea detrás del aprendizaje TD de n pasos es sencilla: en lugar de usar solo el siguiente paso o todo el episodio, utilizamos los siguientes n pasos y luego aplicamos bootstrap:
Gt(n)=Rt+1+γRt+2+...+γn−1Rt+n+γnV(St+1)Esto permite un equilibrio:
- Cuando n=1: es simplemente TD(0);
- Cuando n=∞: se convierte en Monte Carlo.
Estos retornos pueden utilizarse para reemplazar el objetivo en la regla de actualización de TD(0):
V(St)←V(St)+α(Gt(n)−V(St))TD(λ)
TD(λ) es una idea ingeniosa que se basa en el aprendizaje TD de n pasos: en lugar de elegir un n fijo, combinamos todos los retornos de n pasos juntos:
Lt=(1−λ)n=0∑∞λn−1Gt(n)donde λ∈[0,1] controla la ponderación:
- Si λ=0: solo el retorno de un paso → TD(0);
- Si λ=1: retorno completo → Monte Carlo;
- Valores intermedios mezclan múltiples retornos de varios pasos.
Así, λ actúa como un ajuste de compromiso entre sesgo y varianza:
- λ bajo: más sesgo, menos varianza;
- λ alto: menos sesgo, más varianza.
Lt puede utilizarse como objetivo de actualización en la regla de actualización TD(0):
V(St)←V(St)+α(Lt−V(St))¡Gracias por tus comentarios!