Control Monte Carlo en la Misma Política
La idea detrás de los métodos on-policy es intuitiva: un agente aprende siguiendo su política actual y mejora dicha política en función de los resultados que experimenta. Para descubrir mejores acciones y evitar quedar atrapado en comportamientos subóptimos, el agente incorpora un grado de aleatoriedad — probando ocasionalmente acciones alternativas para fomentar la exploración.
Analogía
Imagina que estás en una heladería y hay tres sabores disponibles: chocolate, vainilla y fresa. Te encanta el chocolate, así que normalmente eliges ese. Pero un día, por curiosidad, decides probar el de fresa. Resulta que el helado de fresa en esta tienda es increíblemente sabroso, y decides elegirlo cada vez que visitas este lugar.
Probar un nuevo sabor no fue necesariamente la elección más lógica según la experiencia previa, pero te permitió descubrir algo nuevo. Este tipo de exploración está en el núcleo de los métodos on-policy.
Políticas Estocásticas
Formalmente, adoptar esta idea implica reemplazar las políticas deterministas (duras) utilizadas en la programación dinámica por políticas estocásticas (blandas), denotadas como π(a∣s), donde:
π(a∣s)>0∀s∈S,a∈A(s)En otras palabras, cada acción en cada estado tiene una probabilidad distinta de cero de ser seleccionada. Esto garantiza que todas las partes del entorno puedan ser exploradas eventualmente, lo cual es esencial al aprender de la experiencia.
Políticas ε-greedy
Para incorporar la exploración en la política, se utiliza el concepto de exploración ε-greedy proveniente del problema del bandido de varios brazos. Esto permite definir una política estocástica que equilibra la explotación de la mejor acción conocida con la exploración de alternativas:
π(a∣s)←⎩⎨⎧1−ε+∣A(s)∣ε∣A(s)∣εsi a=a′argmaxqπ(s,a′)en otro casoEsta política actúa de manera codiciosa la mayor parte del tiempo — eligiendo la acción con el valor estimado más alto — pero con probabilidad ε, selecciona una acción aleatoria, asegurando que todas las acciones tengan una probabilidad distinta de cero de ser seleccionadas (incluida la acción codiciosa, mediante muestreo uniforme).
A primera vista, este enfoque puede parecer problemático: dado que la política nunca se vuelve puramente codiciosa, nunca convergerá exactamente a la política óptima. Por lo tanto, no cumple estrictamente las condiciones de GPI si se espera una optimalidad exacta en el límite.
Sin embargo, GPI no requiere que la política sea óptima de inmediato — solo exige que cada política mejore (o se mantenga igual) respecto a la anterior, avanzando progresivamente hacia la optimalidad. La política ε-greedy cumple con esta condición: mejora la política en promedio y garantiza una exploración continua para obtener mejores estimaciones.
Para abordar el problema de la convergencia hacia la política verdaderamente óptima, se puede reducir gradualmente ε con el tiempo. Esta estrategia permite que la política se vuelva cada vez más codiciosa a medida que avanza el aprendizaje. En las primeras etapas, la exploración ayuda a recopilar experiencias diversas, mientras que en etapas posteriores, el agente explota su conocimiento mejorado. Con una reducción adecuada de ε, el método converge a una política óptima en el límite.
Pseudocódigo
¡Gracias por tus comentarios!
Pregunte a AI
Pregunte a AI
Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla
Awesome!
Completion rate improved to 2.7
Control Monte Carlo en la Misma Política
Desliza para mostrar el menú
La idea detrás de los métodos on-policy es intuitiva: un agente aprende siguiendo su política actual y mejora dicha política en función de los resultados que experimenta. Para descubrir mejores acciones y evitar quedar atrapado en comportamientos subóptimos, el agente incorpora un grado de aleatoriedad — probando ocasionalmente acciones alternativas para fomentar la exploración.
Analogía
Imagina que estás en una heladería y hay tres sabores disponibles: chocolate, vainilla y fresa. Te encanta el chocolate, así que normalmente eliges ese. Pero un día, por curiosidad, decides probar el de fresa. Resulta que el helado de fresa en esta tienda es increíblemente sabroso, y decides elegirlo cada vez que visitas este lugar.
Probar un nuevo sabor no fue necesariamente la elección más lógica según la experiencia previa, pero te permitió descubrir algo nuevo. Este tipo de exploración está en el núcleo de los métodos on-policy.
Políticas Estocásticas
Formalmente, adoptar esta idea implica reemplazar las políticas deterministas (duras) utilizadas en la programación dinámica por políticas estocásticas (blandas), denotadas como π(a∣s), donde:
π(a∣s)>0∀s∈S,a∈A(s)En otras palabras, cada acción en cada estado tiene una probabilidad distinta de cero de ser seleccionada. Esto garantiza que todas las partes del entorno puedan ser exploradas eventualmente, lo cual es esencial al aprender de la experiencia.
Políticas ε-greedy
Para incorporar la exploración en la política, se utiliza el concepto de exploración ε-greedy proveniente del problema del bandido de varios brazos. Esto permite definir una política estocástica que equilibra la explotación de la mejor acción conocida con la exploración de alternativas:
π(a∣s)←⎩⎨⎧1−ε+∣A(s)∣ε∣A(s)∣εsi a=a′argmaxqπ(s,a′)en otro casoEsta política actúa de manera codiciosa la mayor parte del tiempo — eligiendo la acción con el valor estimado más alto — pero con probabilidad ε, selecciona una acción aleatoria, asegurando que todas las acciones tengan una probabilidad distinta de cero de ser seleccionadas (incluida la acción codiciosa, mediante muestreo uniforme).
A primera vista, este enfoque puede parecer problemático: dado que la política nunca se vuelve puramente codiciosa, nunca convergerá exactamente a la política óptima. Por lo tanto, no cumple estrictamente las condiciones de GPI si se espera una optimalidad exacta en el límite.
Sin embargo, GPI no requiere que la política sea óptima de inmediato — solo exige que cada política mejore (o se mantenga igual) respecto a la anterior, avanzando progresivamente hacia la optimalidad. La política ε-greedy cumple con esta condición: mejora la política en promedio y garantiza una exploración continua para obtener mejores estimaciones.
Para abordar el problema de la convergencia hacia la política verdaderamente óptima, se puede reducir gradualmente ε con el tiempo. Esta estrategia permite que la política se vuelva cada vez más codiciosa a medida que avanza el aprendizaje. En las primeras etapas, la exploración ayuda a recopilar experiencias diversas, mientras que en etapas posteriores, el agente explota su conocimiento mejorado. Con una reducción adecuada de ε, el método converge a una política óptima en el límite.
Pseudocódigo
¡Gracias por tus comentarios!