Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende Enfoques de Exploración | Métodos de Monte Carlo
Introducción al Aprendizaje por Refuerzo
course content

Contenido del Curso

Introducción al Aprendizaje por Refuerzo

Introducción al Aprendizaje por Refuerzo

1. Teoría Central de RL
2. Problema del Bandido de Varios Brazos
3. Programación Dinámica
4. Métodos de Monte Carlo
5. Aprendizaje por Diferencia Temporal

book
Enfoques de Exploración

La suposición de inicios exploratorios es útil para garantizar que todos los estados (pares estado-acción) sean visitados con el tiempo. Sin embargo, en la mayoría de las tareas del mundo real, presenta una desventaja importante: requiere un modelo para inicializar al agente en estados arbitrarios.

En casos poco frecuentes —cuando el entorno inicia episodios de manera natural desde estados aleatorios que cubren todo el espacio de estados— los inicios exploratorios pueden aplicarse sin inconvenientes. Pero, más comúnmente, las tareas tienen un conjunto fijo o limitado de estados iniciales, lo que hace que dicha aleatorización sea imposible sin un modelo parcial. Este modelo debe ser al menos capaz de simular un paso del entorno desde cualquier estado. Aunque esto sigue siendo menos exigente que requerir un modelo completo, a menudo resulta poco práctico.

Enfoques Alternativos de Exploración

Si no es posible comenzar desde un estado aleatorio (par estado-acción), la alternativa es asegurar que cada acción tenga una probabilidad distinta de cero de ser seleccionada en cada estado. Esto garantiza que, con el tiempo, el agente explore todas las partes alcanzables del espacio de estados. Si un estado puede alcanzarse mediante alguna secuencia válida de acciones, eventualmente se alcanzará; y si no puede alcanzarse bajo la dinámica del entorno, entonces es irrelevante para el proceso de aprendizaje.

Esta idea conduce al uso de políticas estocásticas, donde el agente no siempre elige la acción mejor conocida, sino que selecciona acciones con cierto grado de aleatoriedad. Una estrategia común para esto es la conocida política ε\varepsilon-codiciosa, que elige la acción codiciosa la mayor parte del tiempo, pero con probabilidad ε\varepsilon selecciona una acción aleatoria. Esto asegura una exploración continua mientras sigue favoreciendo las acciones de alto valor.

En este punto, también es útil distinguir entre dos clases principales de métodos:

  • Los métodos en política (on-policy) evalúan y mejoran la misma política que se utiliza para generar los datos;
  • Los métodos fuera de política (off-policy) evalúan y mejoran una política, y generan los datos con otra política.

1. ¿Cuál es el principal problema de la suposición de inicios exploratorios?

2. ¿Cuál es la diferencia entre los métodos on-policy y off-policy en el aprendizaje por refuerzo?

question mark

¿Cuál es el principal problema de la suposición de inicios exploratorios?

Select the correct answer

question mark

¿Cuál es la diferencia entre los métodos on-policy y off-policy en el aprendizaje por refuerzo?

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 4. Capítulo 4

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

course content

Contenido del Curso

Introducción al Aprendizaje por Refuerzo

Introducción al Aprendizaje por Refuerzo

1. Teoría Central de RL
2. Problema del Bandido de Varios Brazos
3. Programación Dinámica
4. Métodos de Monte Carlo
5. Aprendizaje por Diferencia Temporal

book
Enfoques de Exploración

La suposición de inicios exploratorios es útil para garantizar que todos los estados (pares estado-acción) sean visitados con el tiempo. Sin embargo, en la mayoría de las tareas del mundo real, presenta una desventaja importante: requiere un modelo para inicializar al agente en estados arbitrarios.

En casos poco frecuentes —cuando el entorno inicia episodios de manera natural desde estados aleatorios que cubren todo el espacio de estados— los inicios exploratorios pueden aplicarse sin inconvenientes. Pero, más comúnmente, las tareas tienen un conjunto fijo o limitado de estados iniciales, lo que hace que dicha aleatorización sea imposible sin un modelo parcial. Este modelo debe ser al menos capaz de simular un paso del entorno desde cualquier estado. Aunque esto sigue siendo menos exigente que requerir un modelo completo, a menudo resulta poco práctico.

Enfoques Alternativos de Exploración

Si no es posible comenzar desde un estado aleatorio (par estado-acción), la alternativa es asegurar que cada acción tenga una probabilidad distinta de cero de ser seleccionada en cada estado. Esto garantiza que, con el tiempo, el agente explore todas las partes alcanzables del espacio de estados. Si un estado puede alcanzarse mediante alguna secuencia válida de acciones, eventualmente se alcanzará; y si no puede alcanzarse bajo la dinámica del entorno, entonces es irrelevante para el proceso de aprendizaje.

Esta idea conduce al uso de políticas estocásticas, donde el agente no siempre elige la acción mejor conocida, sino que selecciona acciones con cierto grado de aleatoriedad. Una estrategia común para esto es la conocida política ε\varepsilon-codiciosa, que elige la acción codiciosa la mayor parte del tiempo, pero con probabilidad ε\varepsilon selecciona una acción aleatoria. Esto asegura una exploración continua mientras sigue favoreciendo las acciones de alto valor.

En este punto, también es útil distinguir entre dos clases principales de métodos:

  • Los métodos en política (on-policy) evalúan y mejoran la misma política que se utiliza para generar los datos;
  • Los métodos fuera de política (off-policy) evalúan y mejoran una política, y generan los datos con otra política.

1. ¿Cuál es el principal problema de la suposición de inicios exploratorios?

2. ¿Cuál es la diferencia entre los métodos on-policy y off-policy en el aprendizaje por refuerzo?

question mark

¿Cuál es el principal problema de la suposición de inicios exploratorios?

Select the correct answer

question mark

¿Cuál es la diferencia entre los métodos on-policy y off-policy en el aprendizaje por refuerzo?

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 4. Capítulo 4
some-alt