Aprende Control Monte Carlo en la Misma Política

La idea detrás de los métodos on-policy es intuitiva: un agente aprende siguiendo su política actual y mejora esa política en función de los resultados que experimenta. Para descubrir mejores acciones y evitar quedar atrapado en comportamientos subóptimos, el agente incorpora un grado de aleatoriedad — probando ocasionalmente acciones alternativas para fomentar la exploración.

Analogía

Imagina que estás en una heladería y hay tres sabores disponibles: chocolate, vainilla y fresa. Te encanta el chocolate, así que normalmente eliges ese. Pero un día, por curiosidad, decides probar el de fresa. Resulta que el helado de fresa en esta tienda es increíblemente sabroso, y decides elegirlo cada vez que visitas esta heladería.

Probar un nuevo sabor no fue necesariamente la elección más lógica según la experiencia previa, pero te dio la oportunidad de descubrir algo nuevo. Este tipo de exploración está en el núcleo de los métodos on-policy.

Políticas Estocásticas

Formalmente, adoptar esta idea implica reemplazar las políticas deterministas (duras) utilizadas en la programación dinámica por políticas estocásticas (blandas), denotadas como $\pi(a | s)$ , donde:

\pi(a | s) > 0 \qquad \forall s \in S, a \in A(s)

En otras palabras, cada acción en cada estado tiene una probabilidad distinta de cero de ser seleccionada. Esto garantiza que todas las partes del entorno puedan ser exploradas eventualmente, lo cual es esencial al aprender de la experiencia.

Políticas $\Large\varepsilon$ -greedy

Para incorporar exploración en la política, se utiliza el concepto de exploración $\varepsilon$ -greedy proveniente del problema del bandido de varios brazos. Esto permite definir una política estocástica que equilibra la explotación de la mejor acción conocida con la exploración de alternativas:

\pi(a | s) \gets \begin{dcases} 1 - \varepsilon + \frac{\varepsilon}{|A(s)|} & \text{si } a = \argmax_{a'} q_\pi(s, a') \\ \frac{\varepsilon}{|A(s)|} & \text{en otro caso} \end{dcases}

Esta política se comporta de manera codiciosa la mayor parte del tiempo — eligiendo la acción con el valor estimado más alto — pero con probabilidad $\varepsilon$ , selecciona una acción aleatoria, asegurando que todas las acciones tengan una probabilidad distinta de cero de ser seleccionadas (incluida la acción codiciosa nuevamente, mediante muestreo uniforme).

A primera vista, este enfoque puede parecer problemático: dado que la política nunca se vuelve puramente codiciosa, nunca convergerá exactamente a la política óptima. Por lo tanto, no satisface estrictamente las condiciones de GPI si se espera una optimalidad exacta en el límite.

Sin embargo, GPI no requiere que la política sea óptima de inmediato — solo exige que cada política mejore (o se mantenga igual) respecto a la anterior, avanzando progresivamente hacia la optimalidad. La política $\varepsilon$ -greedy cumple con esta condición: mejora la política en promedio y garantiza una exploración continua para obtener mejores estimaciones.

Para abordar el problema de la convergencia hacia la política verdaderamente óptima, se puede reducir gradualmente $\varepsilon$ con el tiempo. Esta estrategia permite que la política se vuelva cada vez más codiciosa a medida que avanza el aprendizaje. En las primeras etapas, la exploración ayuda a recopilar experiencias diversas, mientras que en etapas posteriores, el agente explota su conocimiento mejorado. Con un $\varepsilon$ que decae adecuadamente, el método converge a una política óptima en el límite.

Pseudocódigo

¿Todo estuvo claro?

¡Gracias por tus comentarios!

Sección 4. Capítulo 5

Pregunte a AI

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Desliza para mostrar el menú

Analogía

Políticas Estocásticas

\pi(a | s) > 0 \qquad \forall s \in S, a \in A(s)

Políticas $\Large\varepsilon$ -greedy

\pi(a | s) \gets \begin{dcases} 1 - \varepsilon + \frac{\varepsilon}{|A(s)|} & \text{si } a = \argmax_{a'} q_\pi(s, a') \\ \frac{\varepsilon}{|A(s)|} & \text{en otro caso} \end{dcases}

Pseudocódigo

¿Todo estuvo claro?

¡Gracias por tus comentarios!

Sección 4. Capítulo 5

Control Monte Carlo en la Misma Política

Analogía

Políticas Estocásticas

Políticas ε\Large\varepsilonε-greedy

Pseudocódigo

Control Monte Carlo en la Misma Política

Analogía

Políticas Estocásticas

Políticas ε\Large\varepsilonε-greedy

Pseudocódigo

Políticas $\Large\varepsilon$ -greedy

Políticas $\Large\varepsilon$ -greedy