Contenido del Curso
Introducción al Aprendizaje por Refuerzo
Introducción al Aprendizaje por Refuerzo
TD(0): Estimación de la Función de Valor
La versión más simple del aprendizaje TD se llama TD(0). Actualiza el valor de un estado basándose en la recompensa inmediata y el valor estimado del siguiente estado. Es un método TD de un solo paso.
Regla de actualización
Dado un estado , una recompensa y el siguiente estado , la regla de actualización es la siguiente:
donde
- es la tasa de aprendizaje, o tamaño de paso;
- es el error TD.
Intuición
La función de valor de estado puede definirse y expandirse de la siguiente manera:
Esto da la primera parte de — el retorno experimentado . Y la segunda parte de es el retorno esperado . El error TD es, por lo tanto, la discrepancia observable entre lo que realmente ocurrió y lo que previamente creíamos que ocurriría. Así, la regla de actualización ajusta la creencia previa en cada paso, acercándola un poco más a la realidad.
TD(0) vs Estimación de Monte Carlo
Tanto TD(0) como la estimación de Monte Carlo utilizan experiencias muestreadas para estimar la función de valor de estado para una política . Bajo condiciones estándar de convergencia, ambos convergen al verdadero a medida que el número de visitas a cada estado tiende a infinito. Sin embargo, en la práctica, solo disponemos de una cantidad finita de datos, y los dos métodos difieren significativamente en cómo utilizan esos datos y en la rapidez con la que aprenden.
Compensación entre sesgo y varianza
Desde la perspectiva del compromiso entre sesgo y varianza:
La estimación Monte Carlo espera hasta que finaliza un episodio y luego utiliza el retorno completo para actualizar los valores. Esto produce estimaciones no sesgadas —los retornos reflejan verdaderamente la distribución subyacente—, pero pueden variar drásticamente, especialmente en tareas largas o altamente estocásticas. La alta varianza implica que se requieren muchos episodios para promediar el ruido y obtener estimaciones de valor estables.
TD(0) utiliza el método de bootstrap combinando cada recompensa de un paso con la estimación actual del valor del siguiente estado. Esto introduce sesgo —las actualizaciones tempranas dependen de estimaciones imperfectas—, pero mantiene la varianza baja, ya que cada actualización se basa en un error pequeño e incremental. La baja varianza permite que TD(0) propague la información de recompensa a través del espacio de estados más rápidamente, aunque el sesgo inicial puede ralentizar la convergencia.
Datos de aprendizaje vs Modelo de aprendizaje
Otra forma de analizar estos dos métodos es examinar qué aprende realmente cada uno:
La estimación Monte Carlo aprende directamente de los retornos observados, ajustando sus estimaciones de valor a los episodios específicos que ha visto. Esto significa que minimiza el error en esas trayectorias de entrenamiento, pero como nunca construye una visión explícita de cómo los estados se relacionan entre sí, puede tener dificultades para generalizar a situaciones nuevas o ligeramente diferentes.
Por el contrario, TD(0) utiliza bootstrap en cada transición de un paso, combinando la recompensa inmediata con su estimación del valor del siguiente estado. Al hacerlo, captura efectivamente las relaciones entre los estados —un modelo implícito de la dinámica del entorno—. Esta comprensión similar a un modelo permite que TD(0) generalice mejor a transiciones no vistas, produciendo a menudo estimaciones de valor más precisas en nuevos datos.
Pseudocódigo
¡Gracias por tus comentarios!