Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende Episodios y Retornos | Teoría Central de RL
Introducción al Aprendizaje por Refuerzo
course content

Contenido del Curso

Introducción al Aprendizaje por Refuerzo

Introducción al Aprendizaje por Refuerzo

1. Teoría Central de RL
2. Problema del Bandido de Varios Brazos
3. Programación Dinámica
4. Métodos de Monte Carlo
5. Aprendizaje por Diferencia Temporal

book
Episodios y Retornos

La duración de una tarea

Las tareas en Aprendizaje por Refuerzo (RL) suelen clasificarse como episódicas o continuas, según cómo se estructura el proceso de aprendizaje a lo largo del tiempo.

Note
Definición

Episodio es una secuencia completa de interacciones entre el agente y el entorno, que comienza desde un estado inicial y progresa a través de una serie de transiciones hasta que se alcanza un estado terminal.

Las tareas episódicas son aquellas que consisten en una secuencia finita de estados, acciones y recompensas, donde la interacción del agente con el entorno se divide en episodios distintos.

En contraste, las tareas continuas no tienen un final claro en cada ciclo de interacción. El agente interactúa continuamente con el entorno sin reiniciar al estado inicial, y el proceso de aprendizaje es continuo, a menudo sin un punto terminal definido.

Retorno

Ya sabes que el principal objetivo del agente es maximizar las recompensas acumuladas. Aunque la función de recompensa proporciona recompensas instantáneas, no tiene en cuenta los resultados futuros, lo que puede ser problemático. Un agente entrenado únicamente para maximizar recompensas inmediatas puede pasar por alto beneficios a largo plazo. Para abordar este problema, introduzcamos el concepto de retorno.

Note
Definición

Retorno GG es la recompensa acumulada total que un agente recibe desde un estado dado en adelante, lo que incorpora todas las recompensas que recibirá en el futuro, no solo las inmediatas.

El retorno es una mejor representación de cuán bueno es un estado o acción en el largo plazo. El objetivo del aprendizaje por refuerzo se puede definir ahora como maximizar el retorno.

Si TT es el paso de tiempo final, la fórmula del retorno es la siguiente:

Gt=Rt+1+Rt+2+Rt+3+...+RTG_t = R_{t+1} + R_{t+2} + R_{t+3} + ... + R_T

Descuento

Mientras que el retorno simple es un buen objetivo en tareas episódicas, en tareas continuas surge un problema. Si el número de pasos de tiempo es infinito, el retorno en sí puede ser infinito. Para abordar esto, se utiliza un factor de descuento para asegurar que las recompensas futuras tengan menos peso, evitando que el retorno se vuelva infinito.

Note
Definición

El factor de descuento γ\gamma es un factor multiplicativo utilizado para determinar el valor presente de las recompensas futuras. Su valor está entre 0 y 1, donde un valor cercano a 0 hace que el agente priorice las recompensas inmediatas, mientras que un valor cercano a 1 hace que el agente considere más significativamente las recompensas futuras.

El retorno combinado con un factor de descuento se denomina retorno descontado.

La fórmula para el retorno descontado es la siguiente:

Gt=Rt+1+γRt+2+γ2Rt+3+...=k=0γkRt+k+1G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... = \sum_{k=0}^\infty \gamma^k R_{t+k+1}
Note
Estudiar más

Incluso en tareas episódicas, utilizar un factor de descuento ofrece beneficios prácticos: motiva al agente a alcanzar su objetivo lo más rápido posible, lo que conduce a un comportamiento más eficiente. Por esta razón, el descuento se aplica comúnmente incluso en entornos claramente episódicos.

question mark

¿Qué representa el factor de descuento γ\gamma?

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 1. Capítulo 4

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

course content

Contenido del Curso

Introducción al Aprendizaje por Refuerzo

Introducción al Aprendizaje por Refuerzo

1. Teoría Central de RL
2. Problema del Bandido de Varios Brazos
3. Programación Dinámica
4. Métodos de Monte Carlo
5. Aprendizaje por Diferencia Temporal

book
Episodios y Retornos

La duración de una tarea

Las tareas en Aprendizaje por Refuerzo (RL) suelen clasificarse como episódicas o continuas, según cómo se estructura el proceso de aprendizaje a lo largo del tiempo.

Note
Definición

Episodio es una secuencia completa de interacciones entre el agente y el entorno, que comienza desde un estado inicial y progresa a través de una serie de transiciones hasta que se alcanza un estado terminal.

Las tareas episódicas son aquellas que consisten en una secuencia finita de estados, acciones y recompensas, donde la interacción del agente con el entorno se divide en episodios distintos.

En contraste, las tareas continuas no tienen un final claro en cada ciclo de interacción. El agente interactúa continuamente con el entorno sin reiniciar al estado inicial, y el proceso de aprendizaje es continuo, a menudo sin un punto terminal definido.

Retorno

Ya sabes que el principal objetivo del agente es maximizar las recompensas acumuladas. Aunque la función de recompensa proporciona recompensas instantáneas, no tiene en cuenta los resultados futuros, lo que puede ser problemático. Un agente entrenado únicamente para maximizar recompensas inmediatas puede pasar por alto beneficios a largo plazo. Para abordar este problema, introduzcamos el concepto de retorno.

Note
Definición

Retorno GG es la recompensa acumulada total que un agente recibe desde un estado dado en adelante, lo que incorpora todas las recompensas que recibirá en el futuro, no solo las inmediatas.

El retorno es una mejor representación de cuán bueno es un estado o acción en el largo plazo. El objetivo del aprendizaje por refuerzo se puede definir ahora como maximizar el retorno.

Si TT es el paso de tiempo final, la fórmula del retorno es la siguiente:

Gt=Rt+1+Rt+2+Rt+3+...+RTG_t = R_{t+1} + R_{t+2} + R_{t+3} + ... + R_T

Descuento

Mientras que el retorno simple es un buen objetivo en tareas episódicas, en tareas continuas surge un problema. Si el número de pasos de tiempo es infinito, el retorno en sí puede ser infinito. Para abordar esto, se utiliza un factor de descuento para asegurar que las recompensas futuras tengan menos peso, evitando que el retorno se vuelva infinito.

Note
Definición

El factor de descuento γ\gamma es un factor multiplicativo utilizado para determinar el valor presente de las recompensas futuras. Su valor está entre 0 y 1, donde un valor cercano a 0 hace que el agente priorice las recompensas inmediatas, mientras que un valor cercano a 1 hace que el agente considere más significativamente las recompensas futuras.

El retorno combinado con un factor de descuento se denomina retorno descontado.

La fórmula para el retorno descontado es la siguiente:

Gt=Rt+1+γRt+2+γ2Rt+3+...=k=0γkRt+k+1G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... = \sum_{k=0}^\infty \gamma^k R_{t+k+1}
Note
Estudiar más

Incluso en tareas episódicas, utilizar un factor de descuento ofrece beneficios prácticos: motiva al agente a alcanzar su objetivo lo más rápido posible, lo que conduce a un comportamiento más eficiente. Por esta razón, el descuento se aplica comúnmente incluso en entornos claramente episódicos.

question mark

¿Qué representa el factor de descuento γ\gamma?

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 1. Capítulo 4
some-alt