Contenido del Curso
Introducción al Aprendizaje por Refuerzo
Introducción al Aprendizaje por Refuerzo
¿Qué Es el Aprendizaje por Diferencia Temporal?
Tanto la programación dinámica como los métodos de Monte Carlo presentan ideas valiosas y algunas desventajas importantes.
Programación Dinámica
La programación dinámica permite calcular de manera eficiente la función de valor de estado y derivar una política óptima a partir de ella. Utiliza el bootstrapping —cálculo del valor del estado actual basado en los valores de los estados futuros— para lograrlo.
Aunque la idea de bootstrapping es poderosa, la programación dinámica presenta dos desventajas principales:
- Requiere un modelo completo y explícito del entorno;
- Los valores de los estados se calculan para cada estado, incluso si el estado no está cerca de la trayectoria óptima.
Métodos de Monte Carlo
Los métodos de Monte Carlo solucionan las dos desventajas que tiene la programación dinámica:
- No requieren un modelo, ya que aprenden de la experiencia;
- La forma en que aprenden de la experiencia limita la exploración, por lo que los estados no importantes rara vez se visitan.
Pero introducen una nueva desventaja: el proceso de aprendizaje ocurre solo después de que concluye el episodio. Esto limita la aplicabilidad de los métodos de Monte Carlo a tareas episódicas pequeñas, ya que las tareas más grandes requerirían una cantidad absurdamente grande de acciones hasta que el episodio concluya.
Aprendizaje por Diferencias Temporales
El aprendizaje por diferencia temporal (TD) es el resultado de combinar las ideas tanto de la programación dinámica como de los métodos de Monte Carlo. Toma el aprendizaje a partir de la experiencia de los métodos de Monte Carlo y lo combina con el bootstrapping de la programación dinámica.
Como resultado, el aprendizaje TD soluciona los principales problemas que presentan ambos métodos:
- El aprendizaje a partir de la experiencia resuelve el problema de requerir un modelo y el problema de los espacios de estados grandes;
- El bootstrapping resuelve el problema del aprendizaje episódico.
¿Cómo funciona?
El aprendizaje por diferencia temporal (TD) funciona mediante un ciclo sencillo:
- Estimar el valor: el agente comienza con una suposición inicial sobre cuán bueno es el estado actual;
- Realizar una acción: ejecuta una acción, recibe una recompensa y termina en un nuevo estado;
- Actualizar la estimación: utilizando la recompensa y el valor del nuevo estado, el agente ajusta ligeramente su estimación original para hacerla más precisa;
- Repetir: con el tiempo, al repetir este ciclo, el agente construye gradualmente estimaciones de valor mejores y más precisas para diferentes estados.
Tabla comparativa
¡Gracias por tus comentarios!