Enfoques de Exploración
La suposición de inicios exploratorios es útil para asegurar que todos los estados (pares estado-acción) sean visitados con el tiempo. Sin embargo, en la mayoría de las tareas del mundo real, presenta una desventaja importante: requiere un modelo para inicializar al agente en estados arbitrarios.
En casos poco frecuentes —cuando el entorno inicia episodios de manera natural desde estados aleatorios que cubren todo el espacio de estados— los inicios exploratorios pueden aplicarse sin inconvenientes. Pero, más comúnmente, las tareas tienen un conjunto fijo o limitado de estados iniciales, lo que hace imposible tal aleatorización sin un modelo parcial. Este modelo debería ser al menos capaz de simular un paso del entorno desde cualquier estado. Aunque esto sigue siendo menos exigente que requerir un modelo completo, a menudo resulta poco práctico.
Enfoques Alternativos de Exploración
Si no es posible comenzar desde un estado aleatorio (par estado-acción), la alternativa es asegurar que cada acción tenga una probabilidad distinta de cero de ser seleccionada en cada estado. Esto garantiza que, con el tiempo, el agente explore todas las partes alcanzables del espacio de estados. Si un estado puede alcanzarse mediante alguna secuencia válida de acciones, eventualmente se alcanzará; y si no puede alcanzarse bajo la dinámica del entorno, entonces es irrelevante para el proceso de aprendizaje.
Esta idea conduce al uso de políticas estocásticas, donde el agente no siempre elige la mejor acción conocida, sino que selecciona acciones con cierto grado de aleatoriedad. Una estrategia común para esto es la conocida política ε-codiciosa, que elige la acción codiciosa la mayor parte del tiempo, pero con probabilidad ε, selecciona una acción aleatoria en su lugar. Esto asegura una exploración continua mientras sigue favoreciendo las acciones de alto valor.
En este punto, también es útil distinguir entre dos clases principales de métodos:
- Los métodos on-policy evalúan y mejoran la misma política que se utiliza para generar los datos;
- Los métodos off-policy evalúan y mejoran una política, y generan los datos con otra política.
1. ¿Cuál es el principal problema de la suposición de inicios exploratorios?
2. ¿Cuál es la diferencia entre los métodos on-policy y off-policy en el aprendizaje por refuerzo?
¡Gracias por tus comentarios!
Pregunte a AI
Pregunte a AI
Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla
Can you explain the difference between on-policy and off-policy methods in more detail?
How does the ε-greedy policy work in practice?
What are some other exploration strategies besides ε-greedy?
Awesome!
Completion rate improved to 2.7
Enfoques de Exploración
Desliza para mostrar el menú
La suposición de inicios exploratorios es útil para asegurar que todos los estados (pares estado-acción) sean visitados con el tiempo. Sin embargo, en la mayoría de las tareas del mundo real, presenta una desventaja importante: requiere un modelo para inicializar al agente en estados arbitrarios.
En casos poco frecuentes —cuando el entorno inicia episodios de manera natural desde estados aleatorios que cubren todo el espacio de estados— los inicios exploratorios pueden aplicarse sin inconvenientes. Pero, más comúnmente, las tareas tienen un conjunto fijo o limitado de estados iniciales, lo que hace imposible tal aleatorización sin un modelo parcial. Este modelo debería ser al menos capaz de simular un paso del entorno desde cualquier estado. Aunque esto sigue siendo menos exigente que requerir un modelo completo, a menudo resulta poco práctico.
Enfoques Alternativos de Exploración
Si no es posible comenzar desde un estado aleatorio (par estado-acción), la alternativa es asegurar que cada acción tenga una probabilidad distinta de cero de ser seleccionada en cada estado. Esto garantiza que, con el tiempo, el agente explore todas las partes alcanzables del espacio de estados. Si un estado puede alcanzarse mediante alguna secuencia válida de acciones, eventualmente se alcanzará; y si no puede alcanzarse bajo la dinámica del entorno, entonces es irrelevante para el proceso de aprendizaje.
Esta idea conduce al uso de políticas estocásticas, donde el agente no siempre elige la mejor acción conocida, sino que selecciona acciones con cierto grado de aleatoriedad. Una estrategia común para esto es la conocida política ε-codiciosa, que elige la acción codiciosa la mayor parte del tiempo, pero con probabilidad ε, selecciona una acción aleatoria en su lugar. Esto asegura una exploración continua mientras sigue favoreciendo las acciones de alto valor.
En este punto, también es útil distinguir entre dos clases principales de métodos:
- Los métodos on-policy evalúan y mejoran la misma política que se utiliza para generar los datos;
- Los métodos off-policy evalúan y mejoran una política, y generan los datos con otra política.
1. ¿Cuál es el principal problema de la suposición de inicios exploratorios?
2. ¿Cuál es la diferencia entre los métodos on-policy y off-policy en el aprendizaje por refuerzo?
¡Gracias por tus comentarios!