Aprende TD(0): Estimación de la Función de Valor | Aprendizaje por Diferencia Temporal

La versión más simple del aprendizaje TD se denomina TD(0). Actualiza el valor de un estado en función de la recompensa inmediata y el valor estimado del siguiente estado. Es un método TD de un solo paso.

Regla de actualización

Dado un estado $S_t$ , una recompensa $R_{t+1}$ y el siguiente estado $S_{t+1}$ , la regla de actualización es la siguiente:

V(S_t) \gets V(S_t) + \alpha\Bigl(R_{t+1}+\gamma V(S_{t+1}) - V(S_t)\Bigr)

donde

$\alpha$ es la tasa de aprendizaje, o tamaño de paso;
$\delta_t = R_{t+1}+\gamma V(S_{t+1}) - V(S_t)$ es el error TD.

Intuición

La función de valor de estado $v_\pi$ puede definirse y expandirse de la siguiente manera:

\def\E{\operatorname{\mathbb{E}}} \begin{aligned} v_\pi(s) &= \E_\pi[G_t | S_t = s] \\ &= \E_\pi[R_t + \gamma G_{t+1} | S_t = s] \\ &= \E_\pi[R_t + \gamma v_\pi(S_{t+1}) | S_t = s] \end{aligned}

Esto proporciona la primera parte de $\delta_t$ — el retorno experimentado $R_{t+1} + \gamma V(S_{t+1})$ . Y la segunda parte de $\delta_t$ es el retorno esperado $V(S_t)$ . El error TD $\delta_t$ es, por lo tanto, la discrepancia observable entre lo que realmente ocurrió y lo que previamente se creía que ocurriría. Así, la regla de actualización ajusta la creencia previa ligeramente en cada paso, acercándola más a la realidad.

TD(0) vs Estimación de Monte Carlo

Tanto TD(0) como la estimación de Monte Carlo utilizan experiencias muestreadas para estimar la función de valor de estado $v_\pi(s)$ para una política $\pi$ . Bajo condiciones estándar de convergencia, ambos convergen al verdadero $v_\pi(s)$ a medida que el número de visitas a cada estado tiende a infinito. Sin embargo, en la práctica, solo se dispone de una cantidad finita de datos, y los dos métodos difieren significativamente en cómo utilizan esos datos y en la rapidez con la que aprenden.

Compensación entre sesgo y varianza

Desde la perspectiva del compromiso entre sesgo y varianza:

La estimación Monte Carlo espera hasta que finaliza un episodio y luego utiliza el retorno completo para actualizar los valores. Esto produce estimaciones no sesgadas —los retornos reflejan verdaderamente la distribución subyacente—, pero pueden variar drásticamente, especialmente en tareas largas o altamente estocásticas. La alta varianza implica que se requieren muchos episodios para promediar el ruido y obtener estimaciones de valor estables.

TD(0) utiliza bootstrap combinando cada recompensa de un paso con la estimación actual del valor del siguiente estado. Esto introduce sesgo —las actualizaciones tempranas dependen de estimaciones imperfectas—, pero mantiene la varianza baja, ya que cada actualización se basa en un error pequeño e incremental. La varianza baja permite que TD(0) propague la información de recompensa a través del espacio de estados más rápidamente, aunque el sesgo inicial puede ralentizar la convergencia.

Aprendizaje de datos vs Aprendizaje de modelo

Otra forma de analizar estos dos métodos es examinar qué aprende realmente cada uno:

La estimación Monte Carlo aprende directamente de los retornos observados, ajustando sus estimaciones de valor a los episodios específicos que ha visto. Esto significa que minimiza el error en esas trayectorias de entrenamiento, pero como nunca construye una visión explícita de cómo los estados se relacionan entre sí, puede tener dificultades para generalizar a situaciones nuevas o ligeramente diferentes.

TD(0), en cambio, utiliza bootstrap en cada transición de un paso, combinando la recompensa inmediata con su estimación del valor del siguiente estado. Al hacerlo, captura efectivamente las relaciones entre estados —un modelo implícito de la dinámica del entorno—. Esta comprensión similar a un modelo permite que TD(0) generalice mejor a transiciones no vistas, produciendo a menudo estimaciones de valor más precisas en nuevos datos.

Pseudocódigo

¿Todo estuvo claro?

¡Gracias por tus comentarios!

Sección 5. Capítulo 2

Pregunte a AI

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Desliza para mostrar el menú