Aprende ¿Qué Es el Aprendizaje por Diferencia Temporal?

Tanto la programación dinámica como los métodos de Monte Carlo presentan ideas valiosas y también importantes desventajas.

Programación Dinámica

La programación dinámica permite calcular de manera eficiente la función de valor de estado y derivar una política óptima a partir de ella. Utiliza bootstrapping — el cálculo del valor del estado actual basado en los valores de los estados futuros — para lograrlo.

Aunque la idea de bootstrapping es poderosa, la programación dinámica presenta dos desventajas principales:

Requiere un modelo completo y explícito del entorno;
Los valores de los estados se calculan para cada estado, incluso si el estado no está cerca de la trayectoria óptima.

Métodos de Monte Carlo

Los métodos de Monte Carlo corrigen las dos desventajas de la programación dinámica:

No requieren un modelo, ya que aprenden de la experiencia;
La forma en que aprenden de la experiencia limita la exploración, por lo que los estados no importantes rara vez son visitados.

Sin embargo, introducen una nueva desventaja: el proceso de aprendizaje ocurre solo después de que concluye el episodio. Esto limita la aplicabilidad de los métodos de Monte Carlo a tareas episódicas pequeñas, ya que las tareas más grandes requerirían una cantidad absurdamente grande de acciones hasta que el episodio concluya.

Aprendizaje por Diferencias Temporales

Definición

El aprendizaje por diferencia temporal (TD) es el resultado de combinar las ideas de la programación dinámica y los métodos de Monte Carlo. Toma el enfoque de aprendizaje a partir de la experiencia de los métodos de Monte Carlo y lo combina con el bootstrapping de la programación dinámica.

Como resultado, el aprendizaje TD soluciona los principales problemas que presentan ambos métodos:

Aprendizaje a partir de la experiencia resuelve el problema de requerir un modelo y el problema de espacios de estados grandes;
Bootstrapping resuelve el problema del aprendizaje episódico.

¿Cómo funciona?

El aprendizaje por diferencia temporal (TD) funciona mediante un ciclo sencillo:

Estimar el valor: el agente comienza con una suposición inicial sobre cuán bueno es el estado actual;
Realizar una acción: ejecuta una acción, recibe una recompensa y termina en un nuevo estado;
Actualizar la estimación: utilizando la recompensa y el valor del nuevo estado, el agente ajusta ligeramente su estimación original para hacerla más precisa;
Repetir: con el tiempo, al repetir este ciclo, el agente construye gradualmente estimaciones de valor mejores y más precisas para diferentes estados.

Tabla comparativa

¿Todo estuvo claro?

¡Gracias por tus comentarios!

Sección 5. Capítulo 1

Pregunte a AI

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Desliza para mostrar el menú