Contenido del Curso
Introducción al Aprendizaje por Refuerzo
Introducción al Aprendizaje por Refuerzo
Valores de Acción
El valor de acción es un concepto fundamental en el problema MAB. Desempeña un papel crucial en varios algoritmos, incluidos epsilon-greedy y upper confidence bound. El objetivo principal de un valor de acción es proporcionar una estimación de la recompensa esperada al elegir una acción específica. Es similar a un valor estado-acción, pero es independiente de un estado debido a la naturaleza sin estado del problema MAB.
Definición de valor de acción
Formalmente, el valor de acción, denotado como , representa la recompensa esperada al elegir la acción :
donde:
- es la recompensa recibida;
- es la acción seleccionada.
Dado que la distribución real de recompensas suele ser desconocida, debemos estimar utilizando los datos observados.
Estimación de los valores de acción
Existen varios métodos para estimar a partir de las recompensas observadas. El método más común es la estimación por promedio de muestras, que calcula la media de las recompensas recibidas al seleccionar la acción hasta el tiempo :
donde:
- es el valor estimado de la acción en el paso de tiempo ;
- es el número de veces que la acción ha sido seleccionada hasta el tiempo ;
- es la recompensa obtenida en cada instancia en que se tomó la acción .
A medida que se recopilan más muestras, esta estimación converge al valor esperado real , suponiendo que la distribución de recompensas permanezca estacionaria.
Una distribución estacionaria es una distribución que no cambia con el tiempo, sin importar qué acciones se tomen o cómo cambie el entorno.
Regla de actualización incremental
Aunque la fórmula anterior puede utilizarse para estimar los valores de acción, requiere almacenar todas las recompensas previas y recalcular su suma en cada paso de tiempo. Con las actualizaciones incrementales, esto se vuelve innecesario. La fórmula para las actualizaciones incrementales se puede derivar de la siguiente manera:
donde para alguna acción:
- es una estimación de la -ésima recompensa, que puede expresarse como un promedio de las primeras recompensas;
- es la -ésima recompensa real.
Intuición
Conociendo la estimación de la -ésima recompensa, , y la recompensa real , se puede medir el error como la diferencia entre estos valores. Posteriormente, la siguiente estimación puede calcularse ajustando ligeramente la estimación previa en la dirección de la recompensa real, para reducir el error.
Esta intuición conduce a otra fórmula, que se expresa así:
donde es un parámetro de tamaño de paso que controla la tasa de aprendizaje. Como en la fórmula anterior, alfa puede ser , y resultará en una estimación promedio muestral. Alternativamente, se utiliza comúnmente un constante, ya que no requiere espacio adicional (para almacenar cuántas veces se ha tomado una acción) y permite la adaptación a entornos no estacionarios al dar mayor peso a las observaciones recientes.
Inicialización optimista
Al comienzo de un proceso de entrenamiento, las estimaciones de los valores de acción pueden variar significativamente, lo que puede llevar a una explotación prematura. Esto significa que el agente puede explotar su conocimiento inicial demasiado pronto, favoreciendo acciones subóptimas basadas en una experiencia limitada. Para mitigar este problema y fomentar la exploración inicial, una técnica simple y efectiva es la inicialización optimista.
En la inicialización optimista, los valores de acción se inicializan con valores relativamente altos (por ejemplo, en lugar de 0). Este enfoque crea la impresión de que todas las acciones son prometedoras inicialmente. Como resultado, el agente está incentivado a explorar cada acción varias veces antes de decidirse por la mejor opción. Esta técnica es más eficiente cuando se utiliza en combinación con un tamaño de paso constante.
La tasa de acción óptima en este y futuros gráficos se refiere a la proporción de entornos donde se eligió la acción óptima en un paso de tiempo dado.
Por ejemplo, si hay 10 entornos de prueba y la acción óptima fue seleccionada en 6 de ellos en el paso de tiempo 200, la tasa de acción óptima para ese paso de tiempo sería 0.6. Esta métrica es útil para evaluar el rendimiento porque se correlaciona con la maximización de la recompensa, sin depender de los valores exactos de la recompensa.
¡Gracias por tus comentarios!