Contenido del Curso
Introducción al Aprendizaje por Refuerzo
Introducción al Aprendizaje por Refuerzo
Generalización del Aprendizaje TD
Hasta ahora, hemos considerado dos casos extremos de aprendizaje a partir de la experiencia:
- TD(0): utiliza el retorno de un solo paso;
- Monte Carlo: espera hasta el final del episodio para calcular el retorno.
¿Pero qué sucede si queremos algo intermedio? Algo que aproveche más información futura que TD(0), pero que no requiera esperar hasta el final del episodio como Monte Carlo.
Aquí es donde entran el aprendizaje TD de pasos y TD(): métodos que unifican y generalizan las ideas que hemos visto hasta ahora.
-Paso Aprendizaje TD
La idea detrás del aprendizaje TD de pasos es sencilla: en lugar de usar solo el siguiente paso o todo el episodio, utilizamos los siguientes pasos y luego aplicamos bootstrap:
Esto permite un equilibrio:
- Cuando : es simplemente TD(0);
- Cuando : se convierte en Monte Carlo.
Estos retornos pueden utilizarse para reemplazar el objetivo en la regla de actualización de TD(0):
TD()
TD() es una idea ingeniosa que se basa en el aprendizaje TD de pasos: en lugar de elegir un fijo, combinamos todos los retornos de pasos juntos:
donde controla la ponderación:
- Si : solo el retorno de un paso TD(0);
- Si : retorno completo Monte Carlo;
- Valores intermedios mezclan múltiples retornos de varios pasos.
Así, actúa como un ajuste de compromiso entre sesgo y varianza:
- bajo: más sesgo, menos varianza;
- alto: menos sesgo, más varianza.
puede utilizarse como objetivo de actualización en la regla de actualización TD(0):
¡Gracias por tus comentarios!