Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende Control Monte Carlo en la Misma Política | Métodos de Monte Carlo
Introducción al Aprendizaje por Refuerzo

bookControl Monte Carlo en la Misma Política

La idea detrás de los métodos on-policy es intuitiva: un agente aprende siguiendo su política actual y mejora dicha política en función de los resultados que experimenta. Para descubrir mejores acciones y evitar quedar atrapado en comportamientos subóptimos, el agente incorpora un grado de aleatoriedad — probando ocasionalmente acciones alternativas para fomentar la exploración.

Analogía

Imagina que estás en una heladería y hay tres sabores disponibles: chocolate, vainilla y fresa. Te encanta el chocolate, así que normalmente eliges ese. Pero un día, por curiosidad, decides probar el de fresa. Resulta que el helado de fresa en esta tienda es increíblemente sabroso, y decides elegirlo cada vez que visitas este lugar.

Probar un nuevo sabor no fue necesariamente la elección más lógica según la experiencia previa, pero te permitió descubrir algo nuevo. Este tipo de exploración está en el núcleo de los métodos on-policy.

Políticas Estocásticas

Formalmente, adoptar esta idea implica reemplazar las políticas deterministas (duras) utilizadas en la programación dinámica por políticas estocásticas (blandas), denotadas como π(as)\pi(a | s), donde:

π(as)>0sS,aA(s)\pi(a | s) > 0 \qquad \forall s \in S, a \in A(s)

En otras palabras, cada acción en cada estado tiene una probabilidad distinta de cero de ser seleccionada. Esto garantiza que todas las partes del entorno puedan ser exploradas eventualmente, lo cual es esencial al aprender de la experiencia.

Políticas ε\Large\varepsilon-greedy

Para incorporar la exploración en la política, se utiliza el concepto de exploración ε\varepsilon-greedy proveniente del problema del bandido de varios brazos. Esto permite definir una política estocástica que equilibra la explotación de la mejor acción conocida con la exploración de alternativas:

π(as){1ε+εA(s)si a=arg maxaqπ(s,a)εA(s)en otro caso\pi(a | s) \gets \begin{dcases} 1 - \varepsilon + \frac{\varepsilon}{|A(s)|} & \text{si } a = \argmax_{a'} q_\pi(s, a') \\ \frac{\varepsilon}{|A(s)|} & \text{en otro caso} \end{dcases}

Esta política actúa de manera codiciosa la mayor parte del tiempo — eligiendo la acción con el valor estimado más alto — pero con probabilidad ε\varepsilon, selecciona una acción aleatoria, asegurando que todas las acciones tengan una probabilidad distinta de cero de ser seleccionadas (incluida la acción codiciosa, mediante muestreo uniforme).

A primera vista, este enfoque puede parecer problemático: dado que la política nunca se vuelve puramente codiciosa, nunca convergerá exactamente a la política óptima. Por lo tanto, no cumple estrictamente las condiciones de GPI si se espera una optimalidad exacta en el límite.

Sin embargo, GPI no requiere que la política sea óptima de inmediato — solo exige que cada política mejore (o se mantenga igual) respecto a la anterior, avanzando progresivamente hacia la optimalidad. La política ε\varepsilon-greedy cumple con esta condición: mejora la política en promedio y garantiza una exploración continua para obtener mejores estimaciones.

Para abordar el problema de la convergencia hacia la política verdaderamente óptima, se puede reducir gradualmente ε\varepsilon con el tiempo. Esta estrategia permite que la política se vuelva cada vez más codiciosa a medida que avanza el aprendizaje. En las primeras etapas, la exploración ayuda a recopilar experiencias diversas, mientras que en etapas posteriores, el agente explota su conocimiento mejorado. Con una reducción adecuada de ε\varepsilon, el método converge a una política óptima en el límite.

Pseudocódigo

question mark

¿Cómo pueden las políticas estocásticas ayudar con la exploración?

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 4. Capítulo 5

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Awesome!

Completion rate improved to 2.7

bookControl Monte Carlo en la Misma Política

Desliza para mostrar el menú

La idea detrás de los métodos on-policy es intuitiva: un agente aprende siguiendo su política actual y mejora dicha política en función de los resultados que experimenta. Para descubrir mejores acciones y evitar quedar atrapado en comportamientos subóptimos, el agente incorpora un grado de aleatoriedad — probando ocasionalmente acciones alternativas para fomentar la exploración.

Analogía

Imagina que estás en una heladería y hay tres sabores disponibles: chocolate, vainilla y fresa. Te encanta el chocolate, así que normalmente eliges ese. Pero un día, por curiosidad, decides probar el de fresa. Resulta que el helado de fresa en esta tienda es increíblemente sabroso, y decides elegirlo cada vez que visitas este lugar.

Probar un nuevo sabor no fue necesariamente la elección más lógica según la experiencia previa, pero te permitió descubrir algo nuevo. Este tipo de exploración está en el núcleo de los métodos on-policy.

Políticas Estocásticas

Formalmente, adoptar esta idea implica reemplazar las políticas deterministas (duras) utilizadas en la programación dinámica por políticas estocásticas (blandas), denotadas como π(as)\pi(a | s), donde:

π(as)>0sS,aA(s)\pi(a | s) > 0 \qquad \forall s \in S, a \in A(s)

En otras palabras, cada acción en cada estado tiene una probabilidad distinta de cero de ser seleccionada. Esto garantiza que todas las partes del entorno puedan ser exploradas eventualmente, lo cual es esencial al aprender de la experiencia.

Políticas ε\Large\varepsilon-greedy

Para incorporar la exploración en la política, se utiliza el concepto de exploración ε\varepsilon-greedy proveniente del problema del bandido de varios brazos. Esto permite definir una política estocástica que equilibra la explotación de la mejor acción conocida con la exploración de alternativas:

π(as){1ε+εA(s)si a=arg maxaqπ(s,a)εA(s)en otro caso\pi(a | s) \gets \begin{dcases} 1 - \varepsilon + \frac{\varepsilon}{|A(s)|} & \text{si } a = \argmax_{a'} q_\pi(s, a') \\ \frac{\varepsilon}{|A(s)|} & \text{en otro caso} \end{dcases}

Esta política actúa de manera codiciosa la mayor parte del tiempo — eligiendo la acción con el valor estimado más alto — pero con probabilidad ε\varepsilon, selecciona una acción aleatoria, asegurando que todas las acciones tengan una probabilidad distinta de cero de ser seleccionadas (incluida la acción codiciosa, mediante muestreo uniforme).

A primera vista, este enfoque puede parecer problemático: dado que la política nunca se vuelve puramente codiciosa, nunca convergerá exactamente a la política óptima. Por lo tanto, no cumple estrictamente las condiciones de GPI si se espera una optimalidad exacta en el límite.

Sin embargo, GPI no requiere que la política sea óptima de inmediato — solo exige que cada política mejore (o se mantenga igual) respecto a la anterior, avanzando progresivamente hacia la optimalidad. La política ε\varepsilon-greedy cumple con esta condición: mejora la política en promedio y garantiza una exploración continua para obtener mejores estimaciones.

Para abordar el problema de la convergencia hacia la política verdaderamente óptima, se puede reducir gradualmente ε\varepsilon con el tiempo. Esta estrategia permite que la política se vuelva cada vez más codiciosa a medida que avanza el aprendizaje. En las primeras etapas, la exploración ayuda a recopilar experiencias diversas, mientras que en etapas posteriores, el agente explota su conocimiento mejorado. Con una reducción adecuada de ε\varepsilon, el método converge a una política óptima en el límite.

Pseudocódigo

question mark

¿Cómo pueden las políticas estocásticas ayudar con la exploración?

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 4. Capítulo 5
some-alt