Contenido del Curso
Introducción al Aprendizaje por Refuerzo
Introducción al Aprendizaje por Refuerzo
Control Monte Carlo en la Misma Política
La idea detrás de los métodos on-policy es intuitiva: un agente aprende siguiendo su política actual y mejora esa política en función de los resultados que experimenta. Para descubrir mejores acciones y evitar quedar atrapado en comportamientos subóptimos, el agente incorpora un grado de aleatoriedad — probando ocasionalmente acciones alternativas para fomentar la exploración.
Analogía
Imagina que estás en una heladería y hay tres sabores disponibles: chocolate, vainilla y fresa. Te encanta el chocolate, así que normalmente eliges ese. Pero un día, por curiosidad, decides probar la fresa. Resulta que el helado de fresa en esta tienda es increíblemente sabroso, y decides elegirlo cada vez que visitas esta heladería.
Probar un nuevo sabor no era necesariamente la opción más lógica según la experiencia previa, pero te dio la oportunidad de descubrir algo nuevo. Y este tipo de exploración está en el núcleo de los métodos on-policy.
Políticas Estocásticas
Formalmente, adoptar esta idea implica reemplazar las políticas deterministas (duras) utilizadas en la programación dinámica por políticas estocásticas (blandas), denotadas como , donde:
En otras palabras, cada acción en cada estado tiene una probabilidad distinta de cero de ser seleccionada. Esto garantiza que todas las partes del entorno puedan ser exploradas eventualmente, lo cual es esencial al aprender de la experiencia.
Políticas -greedy
Para incorporar la exploración en la política, tomemos prestado el concepto de exploración -greedy del problema del bandido de varios brazos. Esto nos permite definir una política estocástica que equilibra la explotación de la mejor acción conocida con la exploración de alternativas:
Esta política se comporta de manera codiciosa la mayor parte del tiempo — eligiendo la acción con el valor estimado más alto — pero con probabilidad , selecciona una acción aleatoria, asegurando que todas las acciones tengan una probabilidad distinta de cero de ser seleccionadas (incluso la acción codiciosa nuevamente, mediante muestreo uniforme).
A primera vista, este enfoque parece problemático: dado que la política nunca se vuelve puramente codiciosa, nunca convergerá exactamente a la política óptima. Por lo tanto, no cumple estrictamente las condiciones para GPI si esperamos la optimalidad exacta en el límite.
Sin embargo, GPI no requiere que la política sea óptima de inmediato — solo requiere que cada política mejore (o se mantenga igual) en comparación con la anterior, avanzando progresivamente hacia la optimalidad. La política -greedy cumple con esta condición: mejora la política en promedio y garantiza una exploración continua para obtener mejores estimaciones.
Para abordar el problema de la convergencia hacia la política verdaderamente óptima, podemos reducir gradualmente con el tiempo. Esta estrategia permite que la política se vuelva cada vez más codiciosa a medida que avanza el aprendizaje. En las primeras etapas, la exploración ayuda a recopilar experiencias diversas, mientras que en etapas posteriores, el agente explota su conocimiento mejorado. Con un que decae adecuadamente, el método converge a una política óptima en el límite.
Pseudocódigo
¡Gracias por tus comentarios!