Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende TD(0): Estimación de la Función de Valor | Aprendizaje por Diferencia Temporal
Introducción al Aprendizaje por Refuerzo
course content

Contenido del Curso

Introducción al Aprendizaje por Refuerzo

Introducción al Aprendizaje por Refuerzo

1. Teoría Central de RL
2. Problema del Bandido de Varios Brazos
3. Programación Dinámica
4. Métodos de Monte Carlo
5. Aprendizaje por Diferencia Temporal

book
TD(0): Estimación de la Función de Valor

La versión más simple del aprendizaje TD se llama TD(0). Actualiza el valor de un estado basándose en la recompensa inmediata y el valor estimado del siguiente estado. Es un método TD de un solo paso.

Regla de actualización

Dado un estado StS_t, una recompensa Rt+1R_{t+1} y el siguiente estado St+1S_{t+1}, la regla de actualización es la siguiente:

V(St)V(St)+α(Rt+1+γV(St+1)V(St))V(S_t) \gets V(S_t) + \alpha\Bigl(R_{t+1}+\gamma V(S_{t+1}) - V(S_t)\Bigr)

donde

  • α\alpha es la tasa de aprendizaje, o tamaño de paso;
  • δt=Rt+1+γV(St+1)V(St)\delta_t = R_{t+1}+\gamma V(S_{t+1}) - V(S_t) es el error TD.

Intuición

La función de valor de estado vπv_\pi puede definirse y expandirse de la siguiente manera:

vπ(s)=Eπ[GtSt=s]=Eπ[Rt+γGt+1St=s]=Eπ[Rt+γvπ(St+1)St=s]\def\E{\operatorname{\mathbb{E}}} \begin{aligned} v_\pi(s) &= \E_\pi[G_t | S_t = s] \\ &= \E_\pi[R_t + \gamma G_{t+1} | S_t = s] \\ &= \E_\pi[R_t + \gamma v_\pi(S_{t+1}) | S_t = s] \end{aligned}

Esto da la primera parte de δt\delta_t — el retorno experimentado Rt+1+γV(St+1)R_{t+1} + \gamma V(S_{t+1}). Y la segunda parte de δt\delta_t es el retorno esperado V(St)V(S_t). El error TD δt\delta_t​ es, por lo tanto, la discrepancia observable entre lo que realmente ocurrió y lo que previamente creíamos que ocurriría. Así, la regla de actualización ajusta la creencia previa en cada paso, acercándola un poco más a la realidad.

TD(0) vs Estimación de Monte Carlo

Tanto TD(0) como la estimación de Monte Carlo utilizan experiencias muestreadas para estimar la función de valor de estado vπ(s)v_\pi(s) para una política π\pi. Bajo condiciones estándar de convergencia, ambos convergen al verdadero vπ(s)v_\pi(s) a medida que el número de visitas a cada estado tiende a infinito. Sin embargo, en la práctica, solo disponemos de una cantidad finita de datos, y los dos métodos difieren significativamente en cómo utilizan esos datos y en la rapidez con la que aprenden.

Compensación entre sesgo y varianza

Desde la perspectiva del compromiso entre sesgo y varianza:

La estimación Monte Carlo espera hasta que finaliza un episodio y luego utiliza el retorno completo para actualizar los valores. Esto produce estimaciones no sesgadas —los retornos reflejan verdaderamente la distribución subyacente—, pero pueden variar drásticamente, especialmente en tareas largas o altamente estocásticas. La alta varianza implica que se requieren muchos episodios para promediar el ruido y obtener estimaciones de valor estables.

TD(0) utiliza el método de bootstrap combinando cada recompensa de un paso con la estimación actual del valor del siguiente estado. Esto introduce sesgo —las actualizaciones tempranas dependen de estimaciones imperfectas—, pero mantiene la varianza baja, ya que cada actualización se basa en un error pequeño e incremental. La baja varianza permite que TD(0) propague la información de recompensa a través del espacio de estados más rápidamente, aunque el sesgo inicial puede ralentizar la convergencia.

Datos de aprendizaje vs Modelo de aprendizaje

Otra forma de analizar estos dos métodos es examinar qué aprende realmente cada uno:

La estimación Monte Carlo aprende directamente de los retornos observados, ajustando sus estimaciones de valor a los episodios específicos que ha visto. Esto significa que minimiza el error en esas trayectorias de entrenamiento, pero como nunca construye una visión explícita de cómo los estados se relacionan entre sí, puede tener dificultades para generalizar a situaciones nuevas o ligeramente diferentes.

Por el contrario, TD(0) utiliza bootstrap en cada transición de un paso, combinando la recompensa inmediata con su estimación del valor del siguiente estado. Al hacerlo, captura efectivamente las relaciones entre los estados —un modelo implícito de la dinámica del entorno—. Esta comprensión similar a un modelo permite que TD(0) generalice mejor a transiciones no vistas, produciendo a menudo estimaciones de valor más precisas en nuevos datos.

Pseudocódigo

question mark

¿Cómo se puede describir el TD(0) en términos de sesgo y varianza?

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 5. Capítulo 2

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

course content

Contenido del Curso

Introducción al Aprendizaje por Refuerzo

Introducción al Aprendizaje por Refuerzo

1. Teoría Central de RL
2. Problema del Bandido de Varios Brazos
3. Programación Dinámica
4. Métodos de Monte Carlo
5. Aprendizaje por Diferencia Temporal

book
TD(0): Estimación de la Función de Valor

La versión más simple del aprendizaje TD se llama TD(0). Actualiza el valor de un estado basándose en la recompensa inmediata y el valor estimado del siguiente estado. Es un método TD de un solo paso.

Regla de actualización

Dado un estado StS_t, una recompensa Rt+1R_{t+1} y el siguiente estado St+1S_{t+1}, la regla de actualización es la siguiente:

V(St)V(St)+α(Rt+1+γV(St+1)V(St))V(S_t) \gets V(S_t) + \alpha\Bigl(R_{t+1}+\gamma V(S_{t+1}) - V(S_t)\Bigr)

donde

  • α\alpha es la tasa de aprendizaje, o tamaño de paso;
  • δt=Rt+1+γV(St+1)V(St)\delta_t = R_{t+1}+\gamma V(S_{t+1}) - V(S_t) es el error TD.

Intuición

La función de valor de estado vπv_\pi puede definirse y expandirse de la siguiente manera:

vπ(s)=Eπ[GtSt=s]=Eπ[Rt+γGt+1St=s]=Eπ[Rt+γvπ(St+1)St=s]\def\E{\operatorname{\mathbb{E}}} \begin{aligned} v_\pi(s) &= \E_\pi[G_t | S_t = s] \\ &= \E_\pi[R_t + \gamma G_{t+1} | S_t = s] \\ &= \E_\pi[R_t + \gamma v_\pi(S_{t+1}) | S_t = s] \end{aligned}

Esto da la primera parte de δt\delta_t — el retorno experimentado Rt+1+γV(St+1)R_{t+1} + \gamma V(S_{t+1}). Y la segunda parte de δt\delta_t es el retorno esperado V(St)V(S_t). El error TD δt\delta_t​ es, por lo tanto, la discrepancia observable entre lo que realmente ocurrió y lo que previamente creíamos que ocurriría. Así, la regla de actualización ajusta la creencia previa en cada paso, acercándola un poco más a la realidad.

TD(0) vs Estimación de Monte Carlo

Tanto TD(0) como la estimación de Monte Carlo utilizan experiencias muestreadas para estimar la función de valor de estado vπ(s)v_\pi(s) para una política π\pi. Bajo condiciones estándar de convergencia, ambos convergen al verdadero vπ(s)v_\pi(s) a medida que el número de visitas a cada estado tiende a infinito. Sin embargo, en la práctica, solo disponemos de una cantidad finita de datos, y los dos métodos difieren significativamente en cómo utilizan esos datos y en la rapidez con la que aprenden.

Compensación entre sesgo y varianza

Desde la perspectiva del compromiso entre sesgo y varianza:

La estimación Monte Carlo espera hasta que finaliza un episodio y luego utiliza el retorno completo para actualizar los valores. Esto produce estimaciones no sesgadas —los retornos reflejan verdaderamente la distribución subyacente—, pero pueden variar drásticamente, especialmente en tareas largas o altamente estocásticas. La alta varianza implica que se requieren muchos episodios para promediar el ruido y obtener estimaciones de valor estables.

TD(0) utiliza el método de bootstrap combinando cada recompensa de un paso con la estimación actual del valor del siguiente estado. Esto introduce sesgo —las actualizaciones tempranas dependen de estimaciones imperfectas—, pero mantiene la varianza baja, ya que cada actualización se basa en un error pequeño e incremental. La baja varianza permite que TD(0) propague la información de recompensa a través del espacio de estados más rápidamente, aunque el sesgo inicial puede ralentizar la convergencia.

Datos de aprendizaje vs Modelo de aprendizaje

Otra forma de analizar estos dos métodos es examinar qué aprende realmente cada uno:

La estimación Monte Carlo aprende directamente de los retornos observados, ajustando sus estimaciones de valor a los episodios específicos que ha visto. Esto significa que minimiza el error en esas trayectorias de entrenamiento, pero como nunca construye una visión explícita de cómo los estados se relacionan entre sí, puede tener dificultades para generalizar a situaciones nuevas o ligeramente diferentes.

Por el contrario, TD(0) utiliza bootstrap en cada transición de un paso, combinando la recompensa inmediata con su estimación del valor del siguiente estado. Al hacerlo, captura efectivamente las relaciones entre los estados —un modelo implícito de la dinámica del entorno—. Esta comprensión similar a un modelo permite que TD(0) generalice mejor a transiciones no vistas, produciendo a menudo estimaciones de valor más precisas en nuevos datos.

Pseudocódigo

question mark

¿Cómo se puede describir el TD(0) en términos de sesgo y varianza?

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 5. Capítulo 2
some-alt