Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende Estimación de la Función de Valor | Métodos de Monte Carlo
Introducción al Aprendizaje por Refuerzo
course content

Contenido del Curso

Introducción al Aprendizaje por Refuerzo

Introducción al Aprendizaje por Refuerzo

1. Teoría Central de RL
2. Problema del Bandido de Varios Brazos
3. Programación Dinámica
4. Métodos de Monte Carlo
5. Aprendizaje por Diferencia Temporal

book
Estimación de la Función de Valor

Comencemos revisando un concepto familiar: la función de valor de estado, denotada como vπ(s)v_\pi(s). Se puede definir como

vπ(s)=Eπ[GtSt=s]\def\E{\operatorname{\mathbb{E}}} v_\pi(s) = \E_\pi [ G_t | S_t = s]

El objetivo en este capítulo es estimar esta función a partir de datos, asumiendo que se nos da una política fija π\pi pero no tenemos acceso al modelo del entorno.

Estimación Monte Carlo

Los métodos Monte Carlo abordan esta tarea de estimación mediante el muestreo de episodios de experiencia bajo la política π\pi, utilizando luego estas muestras para formar estimaciones empíricas de vπ(s)v_\pi(s).

En general, el proceso puede dividirse en los siguientes pasos:

  1. Generar un episodio usando la política π\pi;
  2. Guardar el valor de retorno obtenido para cada estado que aparece en el episodio;
  3. Repetir los pasos 1-2 durante un tiempo;
  4. Calcular los nuevos valores promediando los retornos para cada estado.

Recopilación de los Retornos

La estimación Monte Carlo de la función de valor requiere recopilar los retornos de los episodios generados. Para calcular estos retornos, se pueden utilizar dos enfoques principales:

  • Primera-visita: para cada estado ss encontrado en un episodio, solo se considera el retorno posterior a su primera aparición. Las ocurrencias posteriores del mismo estado dentro del mismo episodio se ignoran para fines de estimación;
  • Cada-visita: se utiliza cada aparición de un estado ss dentro de un episodio. Es decir, el retorno posterior a cada visita al estado se incluye en la estimación, incluso si el estado aparece varias veces en el mismo episodio.

Exploración de Inicios

Imagina un mundo simple unidimensional representado por una línea que se extiende desde -10 hasta +10. El agente comienza en la posición 0, y su política actual dicta que siempre se mueve hacia la derecha en cada paso de tiempo.

Si intentamos generar episodios bajo esta política, ¿qué sucede? El agente se moverá continuamente hacia el extremo positivo de la línea — visitando estados como 1, 2, 3, y así sucesivamente — pero nunca visitará ningún estado negativo. Como resultado, no podemos estimar las funciones de valor para los estados a la izquierda del origen, simplemente porque el agente nunca los experimenta.

Así que el problema principal es: si ciertas partes del espacio de estados nunca se exploran, sus estimaciones de valor permanecerán inexactas o indefinidas. Una solución común a este problema es el uso de inicios exploratorios.

Con los inicios exploratorios, cada episodio comienza no en un estado inicial fijo como el 0, sino en un estado seleccionado aleatoriamente. Una vez que el episodio comienza, el agente sigue su política actual como de costumbre. Con el tiempo, al comenzar desde muchos puntos diferentes a lo largo del espacio de estados, el agente puede visitar todos los estados — no solo aquellos a los que su política lo llevaría de forma natural. Esto permite que el método de Monte Carlo produzca estimaciones de valor más precisas y completas para todo el espacio de estados.

Pseudocódigo

Este pseudocódigo utiliza el enfoque de todas las visitas junto con inicios exploratorios.

1. ¿En qué se diferencia el método MC de primera visita del método MC de todas las visitas?

2. ¿Cuál es la principal ventaja de utilizar inicios exploratorios en los métodos Monte Carlo?

question mark

¿En qué se diferencia el método MC de primera visita del método MC de todas las visitas?

Select the correct answer

question mark

¿Cuál es la principal ventaja de utilizar inicios exploratorios en los métodos Monte Carlo?

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 4. Capítulo 2

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

course content

Contenido del Curso

Introducción al Aprendizaje por Refuerzo

Introducción al Aprendizaje por Refuerzo

1. Teoría Central de RL
2. Problema del Bandido de Varios Brazos
3. Programación Dinámica
4. Métodos de Monte Carlo
5. Aprendizaje por Diferencia Temporal

book
Estimación de la Función de Valor

Comencemos revisando un concepto familiar: la función de valor de estado, denotada como vπ(s)v_\pi(s). Se puede definir como

vπ(s)=Eπ[GtSt=s]\def\E{\operatorname{\mathbb{E}}} v_\pi(s) = \E_\pi [ G_t | S_t = s]

El objetivo en este capítulo es estimar esta función a partir de datos, asumiendo que se nos da una política fija π\pi pero no tenemos acceso al modelo del entorno.

Estimación Monte Carlo

Los métodos Monte Carlo abordan esta tarea de estimación mediante el muestreo de episodios de experiencia bajo la política π\pi, utilizando luego estas muestras para formar estimaciones empíricas de vπ(s)v_\pi(s).

En general, el proceso puede dividirse en los siguientes pasos:

  1. Generar un episodio usando la política π\pi;
  2. Guardar el valor de retorno obtenido para cada estado que aparece en el episodio;
  3. Repetir los pasos 1-2 durante un tiempo;
  4. Calcular los nuevos valores promediando los retornos para cada estado.

Recopilación de los Retornos

La estimación Monte Carlo de la función de valor requiere recopilar los retornos de los episodios generados. Para calcular estos retornos, se pueden utilizar dos enfoques principales:

  • Primera-visita: para cada estado ss encontrado en un episodio, solo se considera el retorno posterior a su primera aparición. Las ocurrencias posteriores del mismo estado dentro del mismo episodio se ignoran para fines de estimación;
  • Cada-visita: se utiliza cada aparición de un estado ss dentro de un episodio. Es decir, el retorno posterior a cada visita al estado se incluye en la estimación, incluso si el estado aparece varias veces en el mismo episodio.

Exploración de Inicios

Imagina un mundo simple unidimensional representado por una línea que se extiende desde -10 hasta +10. El agente comienza en la posición 0, y su política actual dicta que siempre se mueve hacia la derecha en cada paso de tiempo.

Si intentamos generar episodios bajo esta política, ¿qué sucede? El agente se moverá continuamente hacia el extremo positivo de la línea — visitando estados como 1, 2, 3, y así sucesivamente — pero nunca visitará ningún estado negativo. Como resultado, no podemos estimar las funciones de valor para los estados a la izquierda del origen, simplemente porque el agente nunca los experimenta.

Así que el problema principal es: si ciertas partes del espacio de estados nunca se exploran, sus estimaciones de valor permanecerán inexactas o indefinidas. Una solución común a este problema es el uso de inicios exploratorios.

Con los inicios exploratorios, cada episodio comienza no en un estado inicial fijo como el 0, sino en un estado seleccionado aleatoriamente. Una vez que el episodio comienza, el agente sigue su política actual como de costumbre. Con el tiempo, al comenzar desde muchos puntos diferentes a lo largo del espacio de estados, el agente puede visitar todos los estados — no solo aquellos a los que su política lo llevaría de forma natural. Esto permite que el método de Monte Carlo produzca estimaciones de valor más precisas y completas para todo el espacio de estados.

Pseudocódigo

Este pseudocódigo utiliza el enfoque de todas las visitas junto con inicios exploratorios.

1. ¿En qué se diferencia el método MC de primera visita del método MC de todas las visitas?

2. ¿Cuál es la principal ventaja de utilizar inicios exploratorios en los métodos Monte Carlo?

question mark

¿En qué se diferencia el método MC de primera visita del método MC de todas las visitas?

Select the correct answer

question mark

¿Cuál es la principal ventaja de utilizar inicios exploratorios en los métodos Monte Carlo?

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 4. Capítulo 2
some-alt