Contenido del Curso
Introducción al Aprendizaje por Refuerzo
Introducción al Aprendizaje por Refuerzo
Episodios y Retornos
La duración de una tarea
Las tareas en Aprendizaje por Refuerzo (RL) suelen clasificarse como episódicas o continuas, según cómo se estructura el proceso de aprendizaje a lo largo del tiempo.
Episodio es una secuencia completa de interacciones entre el agente y el entorno, que comienza desde un estado inicial y progresa a través de una serie de transiciones hasta que se alcanza un estado terminal.
Las tareas episódicas son aquellas que consisten en una secuencia finita de estados, acciones y recompensas, donde la interacción del agente con el entorno se divide en episodios distintos.
En contraste, las tareas continuas no tienen un final claro en cada ciclo de interacción. El agente interactúa continuamente con el entorno sin reiniciar al estado inicial, y el proceso de aprendizaje es continuo, a menudo sin un punto terminal definido.
Retorno
Ya sabes que el principal objetivo del agente es maximizar las recompensas acumuladas. Aunque la función de recompensa proporciona recompensas instantáneas, no tiene en cuenta los resultados futuros, lo que puede ser problemático. Un agente entrenado únicamente para maximizar recompensas inmediatas puede pasar por alto beneficios a largo plazo. Para abordar este problema, introduzcamos el concepto de retorno.
Retorno es la recompensa acumulada total que un agente recibe desde un estado dado en adelante, lo que incorpora todas las recompensas que recibirá en el futuro, no solo las inmediatas.
El retorno es una mejor representación de cuán bueno es un estado o acción en el largo plazo. El objetivo del aprendizaje por refuerzo se puede definir ahora como maximizar el retorno.
Si es el paso de tiempo final, la fórmula del retorno es la siguiente:
Descuento
Mientras que el retorno simple es un buen objetivo en tareas episódicas, en tareas continuas surge un problema. Si el número de pasos de tiempo es infinito, el retorno en sí puede ser infinito. Para abordar esto, se utiliza un factor de descuento para asegurar que las recompensas futuras tengan menos peso, evitando que el retorno se vuelva infinito.
El factor de descuento es un factor multiplicativo utilizado para determinar el valor presente de las recompensas futuras. Su valor está entre 0 y 1, donde un valor cercano a 0 hace que el agente priorice las recompensas inmediatas, mientras que un valor cercano a 1 hace que el agente considere más significativamente las recompensas futuras.
El retorno combinado con un factor de descuento se denomina retorno descontado.
La fórmula para el retorno descontado es la siguiente:
Incluso en tareas episódicas, utilizar un factor de descuento ofrece beneficios prácticos: motiva al agente a alcanzar su objetivo lo más rápido posible, lo que conduce a un comportamiento más eficiente. Por esta razón, el descuento se aplica comúnmente incluso en entornos claramente episódicos.
¡Gracias por tus comentarios!