Contenido del Curso
Introducción al Aprendizaje por Refuerzo
Introducción al Aprendizaje por Refuerzo
Enfoques de Exploración
La suposición de inicios exploratorios es útil para garantizar que todos los estados (pares estado-acción) sean visitados con el tiempo. Sin embargo, en la mayoría de las tareas del mundo real, presenta una desventaja importante: requiere un modelo para inicializar al agente en estados arbitrarios.
En casos poco frecuentes —cuando el entorno inicia episodios de manera natural desde estados aleatorios que cubren todo el espacio de estados— los inicios exploratorios pueden aplicarse sin inconvenientes. Pero, más comúnmente, las tareas tienen un conjunto fijo o limitado de estados iniciales, lo que hace que dicha aleatorización sea imposible sin un modelo parcial. Este modelo debe ser al menos capaz de simular un paso del entorno desde cualquier estado. Aunque esto sigue siendo menos exigente que requerir un modelo completo, a menudo resulta poco práctico.
Enfoques Alternativos de Exploración
Si no es posible comenzar desde un estado aleatorio (par estado-acción), la alternativa es asegurar que cada acción tenga una probabilidad distinta de cero de ser seleccionada en cada estado. Esto garantiza que, con el tiempo, el agente explore todas las partes alcanzables del espacio de estados. Si un estado puede alcanzarse mediante alguna secuencia válida de acciones, eventualmente se alcanzará; y si no puede alcanzarse bajo la dinámica del entorno, entonces es irrelevante para el proceso de aprendizaje.
Esta idea conduce al uso de políticas estocásticas, donde el agente no siempre elige la acción mejor conocida, sino que selecciona acciones con cierto grado de aleatoriedad. Una estrategia común para esto es la conocida política -codiciosa, que elige la acción codiciosa la mayor parte del tiempo, pero con probabilidad selecciona una acción aleatoria. Esto asegura una exploración continua mientras sigue favoreciendo las acciones de alto valor.
En este punto, también es útil distinguir entre dos clases principales de métodos:
- Los métodos en política (on-policy) evalúan y mejoran la misma política que se utiliza para generar los datos;
- Los métodos fuera de política (off-policy) evalúan y mejoran una política, y generan los datos con otra política.
1. ¿Cuál es el principal problema de la suposición de inicios exploratorios?
2. ¿Cuál es la diferencia entre los métodos on-policy y off-policy en el aprendizaje por refuerzo?
¡Gracias por tus comentarios!