Contenido del Curso
Introducción al Aprendizaje por Refuerzo
Introducción al Aprendizaje por Refuerzo
Control Monte Carlo Fuera de Política
Mientras que los métodos on-policy aprenden siguiendo y mejorando la misma política, los métodos off-policy introducen una variación: aprenden sobre una política (la política objetivo) mientras siguen otra (la política de comportamiento). Esta separación es poderosa: permite evaluar o mejorar una política objetivo sin necesidad de seguirla realmente durante la recolección de datos.
Analogía
Volvamos a la heladería del capítulo anterior. Tú y tu amigo entran, y una vez más, los tres sabores familiares están disponibles: chocolate, vainilla y fresa. El chocolate es tu favorito personal, y tu primer instinto es pedirlo. Pero esta tienda es nueva para ti, y no estás seguro de si elegir chocolate es lo correcto. Afortunadamente, tu amigo es un destacado amante del helado que ha visitado casi todas las heladerías de la ciudad. Le pides su opinión. "El chocolate aquí está bien," dice, "pero créeme: la fresa es excepcional." Así que, basándote en su experiencia, decides dejar de lado tu elección habitual y optar por la fresa en su lugar.
Esa decisión — confiar en la experiencia de otra persona para guiar tu propia elección — es la esencia de los métodos fuera de política. Se busca mejorar la toma de decisiones utilizando datos recopilados bajo el comportamiento de otro. Sigue siendo exploración, pero está guiada por la experiencia externa en lugar de la propia.
Muestreo de importancia
Debido a que el agente sigue la política de comportamiento durante la generación de episodios, es necesario tener en cuenta la discrepancia entre lo que genera la política de comportamiento y lo que generaría la política objetivo. Aquí es donde entra el muestreo de importancia.
El muestreo de importancia proporciona una forma de ajustar los retornos observados bajo la política de comportamiento para que sean estimaciones válidas para la política objetivo.
Analicemos una trayectoria que comienza desde cierto estado y sigue cierta política hasta que el episodio termina en un tiempo . Específicamente, observamos:
Ahora, ¿cuál es la probabilidad de que ocurra esta trayectoria bajo una política ? Depende tanto de las probabilidades de acción de la política como de la dinámica de transición del entorno:
Supongamos ahora que la trayectoria fue generada realmente por una política diferente — la política de comportamiento . Para utilizar correctamente esta trayectoria y estimar expectativas bajo la política objetivo , debemos tener en cuenta cuán más o menos probable habría sido esta secuencia de acciones bajo en comparación con .
Aquí es donde entra la razón de muestreo de importancia. Se define como la probabilidad relativa de la trayectoria bajo las dos políticas:
Al final, las probabilidades de transición se cancelan, ya que ambas políticas operan en el mismo entorno, y el valor de depende solo de las políticas, no del entorno.
Por qué es importante
La razón nos indica cómo reponderar el retorno observado bajo la política de comportamiento para que se convierta en una estimación insesgada de lo que habría sido el retorno bajo la política objetivo:
En otras palabras, aunque los datos se recopilaron usando , aún podemos estimar los retornos esperados bajo — siempre que asigne probabilidad distinta de cero a cada acción que pueda tomar (supuesto de cobertura).
Consideraciones Prácticas
Varianza del Muestreo de Importancia
La incorporación del muestreo de importancia es conceptualmente sencilla. Se ajusta la función de valor de acción estimada ponderando cada retorno observado con el correspondiente cociente de muestreo de importancia. La formulación más simple es la siguiente:
donde:
- es el cociente de muestreo de importancia para la -ésima trayectoria que comienza en ;
- es el retorno de esa trayectoria;
- es el número de veces que se ha visitado .
Esto se conoce como muestreo de importancia ordinario. Proporciona una estimación insesgada de , pero puede sufrir de varianza muy alta, especialmente cuando las políticas de comportamiento y objetivo difieren significativamente.
Para mitigar el problema de la varianza, se puede utilizar una alternativa más estable: muestreo de importancia ponderado. Este método normaliza los pesos de importancia, lo que reduce el impacto de cocientes grandes y conduce a un aprendizaje más estable:
En esta versión, el numerador es la misma suma ponderada de retornos, pero el denominador ahora es la suma de los pesos de importancia, en lugar de un simple conteo.
Esto hace que la estimación sea sesgada, pero el sesgo disminuye a medida que se recopilan más muestras. En la práctica, se prefiere el muestreo de importancia ponderado debido a su varianza significativamente menor y mayor estabilidad numérica.
Políticas
Al igual que en el caso on-policy, se utilizan políticas -codiciosas tanto para la política objetivo como para la política de comportamiento .
A primera vista, parece natural hacer que la política objetivo sea totalmente codiciosa; después de todo, nuestro objetivo final es una política codiciosa. Sin embargo, en la práctica, esto causa un problema importante: si en algún paso para la acción que realmente fue tomada por la política de comportamiento, la razón de muestreo de importancia se vuelve cero y la parte restante del episodio se descarta efectivamente.
Al utilizar un pequeño (por ejemplo, ) en la política objetivo, se garantiza que para cada acción, por lo que nunca colapsa a cero a mitad del episodio. Una vez finalizado el entrenamiento, es trivial convertir la política -codiciosa aprendida en una estrictamente codiciosa. Como en el aprendizaje on-policy, se debe usar un decreciente en la política de comportamiento, pero esta vez es principalmente por estabilidad numérica, ya que aún puede caer a cero a mitad del episodio, debido a la forma en que los números se representan en las computadoras.
Pseudocódigo
¡Gracias por tus comentarios!