Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende Control Monte Carlo en la Misma Política | Métodos de Monte Carlo
Introducción al Aprendizaje por Refuerzo
course content

Contenido del Curso

Introducción al Aprendizaje por Refuerzo

Introducción al Aprendizaje por Refuerzo

1. Teoría Central de RL
2. Problema del Bandido de Varios Brazos
3. Programación Dinámica
4. Métodos de Monte Carlo
5. Aprendizaje por Diferencia Temporal

book
Control Monte Carlo en la Misma Política

La idea detrás de los métodos on-policy es intuitiva: un agente aprende siguiendo su política actual y mejora esa política en función de los resultados que experimenta. Para descubrir mejores acciones y evitar quedar atrapado en comportamientos subóptimos, el agente incorpora un grado de aleatoriedad — probando ocasionalmente acciones alternativas para fomentar la exploración.

Analogía

Imagina que estás en una heladería y hay tres sabores disponibles: chocolate, vainilla y fresa. Te encanta el chocolate, así que normalmente eliges ese. Pero un día, por curiosidad, decides probar la fresa. Resulta que el helado de fresa en esta tienda es increíblemente sabroso, y decides elegirlo cada vez que visitas esta heladería.

Probar un nuevo sabor no era necesariamente la opción más lógica según la experiencia previa, pero te dio la oportunidad de descubrir algo nuevo. Y este tipo de exploración está en el núcleo de los métodos on-policy.

Políticas Estocásticas

Formalmente, adoptar esta idea implica reemplazar las políticas deterministas (duras) utilizadas en la programación dinámica por políticas estocásticas (blandas), denotadas como π(as)\pi(a | s), donde:

π(as)>0sS,aA(s)\pi(a | s) > 0 \qquad \forall s \in S, a \in A(s)

En otras palabras, cada acción en cada estado tiene una probabilidad distinta de cero de ser seleccionada. Esto garantiza que todas las partes del entorno puedan ser exploradas eventualmente, lo cual es esencial al aprender de la experiencia.

Políticas ε\Large\varepsilon-greedy

Para incorporar la exploración en la política, tomemos prestado el concepto de exploración ε\varepsilon-greedy del problema del bandido de varios brazos. Esto nos permite definir una política estocástica que equilibra la explotación de la mejor acción conocida con la exploración de alternativas:

π(as){1ε+εA(s)si a=arg maxaqπ(s,a)εA(s)en otro caso\pi(a | s) \gets \begin{dcases} 1 - \varepsilon + \frac{\varepsilon}{|A(s)|} & \text{si } a = \argmax_{a'} q_\pi(s, a') \\ \frac{\varepsilon}{|A(s)|} & \text{en otro caso} \end{dcases}

Esta política se comporta de manera codiciosa la mayor parte del tiempo — eligiendo la acción con el valor estimado más alto — pero con probabilidad ε\varepsilon, selecciona una acción aleatoria, asegurando que todas las acciones tengan una probabilidad distinta de cero de ser seleccionadas (incluso la acción codiciosa nuevamente, mediante muestreo uniforme).

A primera vista, este enfoque parece problemático: dado que la política nunca se vuelve puramente codiciosa, nunca convergerá exactamente a la política óptima. Por lo tanto, no cumple estrictamente las condiciones para GPI si esperamos la optimalidad exacta en el límite.

Sin embargo, GPI no requiere que la política sea óptima de inmediato — solo requiere que cada política mejore (o se mantenga igual) en comparación con la anterior, avanzando progresivamente hacia la optimalidad. La política ε\varepsilon-greedy cumple con esta condición: mejora la política en promedio y garantiza una exploración continua para obtener mejores estimaciones.

Para abordar el problema de la convergencia hacia la política verdaderamente óptima, podemos reducir gradualmente ε\varepsilon con el tiempo. Esta estrategia permite que la política se vuelva cada vez más codiciosa a medida que avanza el aprendizaje. En las primeras etapas, la exploración ayuda a recopilar experiencias diversas, mientras que en etapas posteriores, el agente explota su conocimiento mejorado. Con un ε\varepsilon que decae adecuadamente, el método converge a una política óptima en el límite.

Pseudocódigo

question mark

¿Cómo pueden las políticas estocásticas ayudar con la exploración?

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 4. Capítulo 5

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

course content

Contenido del Curso

Introducción al Aprendizaje por Refuerzo

Introducción al Aprendizaje por Refuerzo

1. Teoría Central de RL
2. Problema del Bandido de Varios Brazos
3. Programación Dinámica
4. Métodos de Monte Carlo
5. Aprendizaje por Diferencia Temporal

book
Control Monte Carlo en la Misma Política

La idea detrás de los métodos on-policy es intuitiva: un agente aprende siguiendo su política actual y mejora esa política en función de los resultados que experimenta. Para descubrir mejores acciones y evitar quedar atrapado en comportamientos subóptimos, el agente incorpora un grado de aleatoriedad — probando ocasionalmente acciones alternativas para fomentar la exploración.

Analogía

Imagina que estás en una heladería y hay tres sabores disponibles: chocolate, vainilla y fresa. Te encanta el chocolate, así que normalmente eliges ese. Pero un día, por curiosidad, decides probar la fresa. Resulta que el helado de fresa en esta tienda es increíblemente sabroso, y decides elegirlo cada vez que visitas esta heladería.

Probar un nuevo sabor no era necesariamente la opción más lógica según la experiencia previa, pero te dio la oportunidad de descubrir algo nuevo. Y este tipo de exploración está en el núcleo de los métodos on-policy.

Políticas Estocásticas

Formalmente, adoptar esta idea implica reemplazar las políticas deterministas (duras) utilizadas en la programación dinámica por políticas estocásticas (blandas), denotadas como π(as)\pi(a | s), donde:

π(as)>0sS,aA(s)\pi(a | s) > 0 \qquad \forall s \in S, a \in A(s)

En otras palabras, cada acción en cada estado tiene una probabilidad distinta de cero de ser seleccionada. Esto garantiza que todas las partes del entorno puedan ser exploradas eventualmente, lo cual es esencial al aprender de la experiencia.

Políticas ε\Large\varepsilon-greedy

Para incorporar la exploración en la política, tomemos prestado el concepto de exploración ε\varepsilon-greedy del problema del bandido de varios brazos. Esto nos permite definir una política estocástica que equilibra la explotación de la mejor acción conocida con la exploración de alternativas:

π(as){1ε+εA(s)si a=arg maxaqπ(s,a)εA(s)en otro caso\pi(a | s) \gets \begin{dcases} 1 - \varepsilon + \frac{\varepsilon}{|A(s)|} & \text{si } a = \argmax_{a'} q_\pi(s, a') \\ \frac{\varepsilon}{|A(s)|} & \text{en otro caso} \end{dcases}

Esta política se comporta de manera codiciosa la mayor parte del tiempo — eligiendo la acción con el valor estimado más alto — pero con probabilidad ε\varepsilon, selecciona una acción aleatoria, asegurando que todas las acciones tengan una probabilidad distinta de cero de ser seleccionadas (incluso la acción codiciosa nuevamente, mediante muestreo uniforme).

A primera vista, este enfoque parece problemático: dado que la política nunca se vuelve puramente codiciosa, nunca convergerá exactamente a la política óptima. Por lo tanto, no cumple estrictamente las condiciones para GPI si esperamos la optimalidad exacta en el límite.

Sin embargo, GPI no requiere que la política sea óptima de inmediato — solo requiere que cada política mejore (o se mantenga igual) en comparación con la anterior, avanzando progresivamente hacia la optimalidad. La política ε\varepsilon-greedy cumple con esta condición: mejora la política en promedio y garantiza una exploración continua para obtener mejores estimaciones.

Para abordar el problema de la convergencia hacia la política verdaderamente óptima, podemos reducir gradualmente ε\varepsilon con el tiempo. Esta estrategia permite que la política se vuelva cada vez más codiciosa a medida que avanza el aprendizaje. En las primeras etapas, la exploración ayuda a recopilar experiencias diversas, mientras que en etapas posteriores, el agente explota su conocimiento mejorado. Con un ε\varepsilon que decae adecuadamente, el método converge a una política óptima en el límite.

Pseudocódigo

question mark

¿Cómo pueden las políticas estocásticas ayudar con la exploración?

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 4. Capítulo 5
some-alt