Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende ¿Qué Es el Aprendizaje por Diferencia Temporal? | Aprendizaje por Diferencia Temporal
Introducción al Aprendizaje por Refuerzo
course content

Contenido del Curso

Introducción al Aprendizaje por Refuerzo

Introducción al Aprendizaje por Refuerzo

1. Teoría Central de RL
2. Problema del Bandido de Varios Brazos
3. Programación Dinámica
4. Métodos de Monte Carlo
5. Aprendizaje por Diferencia Temporal

book
¿Qué Es el Aprendizaje por Diferencia Temporal?

Tanto la programación dinámica como los métodos de Monte Carlo presentan ideas valiosas y algunas desventajas importantes.

Programación Dinámica

La programación dinámica permite calcular de manera eficiente la función de valor de estado y derivar una política óptima a partir de ella. Utiliza el bootstrapping —cálculo del valor del estado actual basado en los valores de los estados futuros— para lograrlo.

Aunque la idea de bootstrapping es poderosa, la programación dinámica presenta dos desventajas principales:

  • Requiere un modelo completo y explícito del entorno;
  • Los valores de los estados se calculan para cada estado, incluso si el estado no está cerca de la trayectoria óptima.

Métodos de Monte Carlo

Los métodos de Monte Carlo solucionan las dos desventajas que tiene la programación dinámica:

  • No requieren un modelo, ya que aprenden de la experiencia;
  • La forma en que aprenden de la experiencia limita la exploración, por lo que los estados no importantes rara vez se visitan.

Pero introducen una nueva desventaja: el proceso de aprendizaje ocurre solo después de que concluye el episodio. Esto limita la aplicabilidad de los métodos de Monte Carlo a tareas episódicas pequeñas, ya que las tareas más grandes requerirían una cantidad absurdamente grande de acciones hasta que el episodio concluya.

Aprendizaje por Diferencias Temporales

Note
Definición

El aprendizaje por diferencia temporal (TD) es el resultado de combinar las ideas tanto de la programación dinámica como de los métodos de Monte Carlo. Toma el aprendizaje a partir de la experiencia de los métodos de Monte Carlo y lo combina con el bootstrapping de la programación dinámica.

Como resultado, el aprendizaje TD soluciona los principales problemas que presentan ambos métodos:

  • El aprendizaje a partir de la experiencia resuelve el problema de requerir un modelo y el problema de los espacios de estados grandes;
  • El bootstrapping resuelve el problema del aprendizaje episódico.

¿Cómo funciona?

El aprendizaje por diferencia temporal (TD) funciona mediante un ciclo sencillo:

  1. Estimar el valor: el agente comienza con una suposición inicial sobre cuán bueno es el estado actual;
  2. Realizar una acción: ejecuta una acción, recibe una recompensa y termina en un nuevo estado;
  3. Actualizar la estimación: utilizando la recompensa y el valor del nuevo estado, el agente ajusta ligeramente su estimación original para hacerla más precisa;
  4. Repetir: con el tiempo, al repetir este ciclo, el agente construye gradualmente estimaciones de valor mejores y más precisas para diferentes estados.

Tabla comparativa

question mark

¿Cómo combina el aprendizaje por diferencia temporal las fortalezas de la programación dinámica y los métodos de Monte Carlo?

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 5. Capítulo 1

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

course content

Contenido del Curso

Introducción al Aprendizaje por Refuerzo

Introducción al Aprendizaje por Refuerzo

1. Teoría Central de RL
2. Problema del Bandido de Varios Brazos
3. Programación Dinámica
4. Métodos de Monte Carlo
5. Aprendizaje por Diferencia Temporal

book
¿Qué Es el Aprendizaje por Diferencia Temporal?

Tanto la programación dinámica como los métodos de Monte Carlo presentan ideas valiosas y algunas desventajas importantes.

Programación Dinámica

La programación dinámica permite calcular de manera eficiente la función de valor de estado y derivar una política óptima a partir de ella. Utiliza el bootstrapping —cálculo del valor del estado actual basado en los valores de los estados futuros— para lograrlo.

Aunque la idea de bootstrapping es poderosa, la programación dinámica presenta dos desventajas principales:

  • Requiere un modelo completo y explícito del entorno;
  • Los valores de los estados se calculan para cada estado, incluso si el estado no está cerca de la trayectoria óptima.

Métodos de Monte Carlo

Los métodos de Monte Carlo solucionan las dos desventajas que tiene la programación dinámica:

  • No requieren un modelo, ya que aprenden de la experiencia;
  • La forma en que aprenden de la experiencia limita la exploración, por lo que los estados no importantes rara vez se visitan.

Pero introducen una nueva desventaja: el proceso de aprendizaje ocurre solo después de que concluye el episodio. Esto limita la aplicabilidad de los métodos de Monte Carlo a tareas episódicas pequeñas, ya que las tareas más grandes requerirían una cantidad absurdamente grande de acciones hasta que el episodio concluya.

Aprendizaje por Diferencias Temporales

Note
Definición

El aprendizaje por diferencia temporal (TD) es el resultado de combinar las ideas tanto de la programación dinámica como de los métodos de Monte Carlo. Toma el aprendizaje a partir de la experiencia de los métodos de Monte Carlo y lo combina con el bootstrapping de la programación dinámica.

Como resultado, el aprendizaje TD soluciona los principales problemas que presentan ambos métodos:

  • El aprendizaje a partir de la experiencia resuelve el problema de requerir un modelo y el problema de los espacios de estados grandes;
  • El bootstrapping resuelve el problema del aprendizaje episódico.

¿Cómo funciona?

El aprendizaje por diferencia temporal (TD) funciona mediante un ciclo sencillo:

  1. Estimar el valor: el agente comienza con una suposición inicial sobre cuán bueno es el estado actual;
  2. Realizar una acción: ejecuta una acción, recibe una recompensa y termina en un nuevo estado;
  3. Actualizar la estimación: utilizando la recompensa y el valor del nuevo estado, el agente ajusta ligeramente su estimación original para hacerla más precisa;
  4. Repetir: con el tiempo, al repetir este ciclo, el agente construye gradualmente estimaciones de valor mejores y más precisas para diferentes estados.

Tabla comparativa

question mark

¿Cómo combina el aprendizaje por diferencia temporal las fortalezas de la programación dinámica y los métodos de Monte Carlo?

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 5. Capítulo 1
some-alt