Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende Valores de Acción | Problema del Bandido de Varios Brazos
Introducción al Aprendizaje por Refuerzo
course content

Contenido del Curso

Introducción al Aprendizaje por Refuerzo

Introducción al Aprendizaje por Refuerzo

1. Teoría Central de RL
2. Problema del Bandido de Varios Brazos
3. Programación Dinámica
4. Métodos de Monte Carlo
5. Aprendizaje por Diferencia Temporal

book
Valores de Acción

El valor de acción es un concepto fundamental en el problema MAB. Desempeña un papel crucial en varios algoritmos, incluidos epsilon-greedy y upper confidence bound. El objetivo principal de un valor de acción es proporcionar una estimación de la recompensa esperada al elegir una acción específica. Es similar a un valor estado-acción, pero es independiente de un estado debido a la naturaleza sin estado del problema MAB.

Definición de valor de acción

Formalmente, el valor de acción, denotado como Q(a)Q(a), representa la recompensa esperada al elegir la acción aa:

Q(a)=E[RA=a]\def\E{\operatorname{\mathbb{E}}} Q(a) = \E[R | A = a]

donde:

  • RR es la recompensa recibida;
  • AA es la acción seleccionada.

Dado que la distribución real de recompensas suele ser desconocida, debemos estimar Q(a)Q(a) utilizando los datos observados.

Estimación de los valores de acción

Existen varios métodos para estimar Q(a)Q(a) a partir de las recompensas observadas. El método más común es la estimación por promedio de muestras, que calcula la media de las recompensas recibidas al seleccionar la acción aa hasta el tiempo tt:

Qt(a)=R1+R2+...+RNt(a)Nt(a)=i=1Nt(a)RiNt(a)Q_t(a) = \frac{R_1 + R_2 + ... + R_{N_t(a)}}{N_t(a)} = \frac{\sum_{i=1}^{N_t(a)} R_i}{N_t(a)}

donde:

  • Qt(a)Q_t(a) es el valor estimado de la acción aa en el paso de tiempo tt;
  • Nt(a)N_t(a) es el número de veces que la acción aa ha sido seleccionada hasta el tiempo tt;
  • RiR_i es la recompensa obtenida en cada instancia en que se tomó la acción aa.

A medida que se recopilan más muestras, esta estimación converge al valor esperado real Q(a)Q_*(a), suponiendo que la distribución de recompensas permanezca estacionaria.

Note
Definición

Una distribución estacionaria es una distribución que no cambia con el tiempo, sin importar qué acciones se tomen o cómo cambie el entorno.

Regla de actualización incremental

Aunque la fórmula anterior puede utilizarse para estimar los valores de acción, requiere almacenar todas las recompensas previas y recalcular su suma en cada paso de tiempo. Con las actualizaciones incrementales, esto se vuelve innecesario. La fórmula para las actualizaciones incrementales se puede derivar de la siguiente manera:

Qk+1=1ki=1kRi=1k(Rk+i=1k1Ri)=1k(Rk+(k1)Qk)=1k(Rk+kQkQk)=Qk+1k(RkQk)\begin{aligned} Q_{k+1} &= \frac1k \sum_{i=1}^k R_i\\ &= \frac1k (R_k + \sum_{i=1}^{k-1} R_i)\\ &= \frac1k (R_k + (k-1) Q_k)\\ &= \frac1k (R_k + k Q_k - Q_k)\\ &= Q_k + \frac1k(R_k - Q_k) \end{aligned}

donde para alguna acción:

  • QkQ_k es una estimación de la kk-ésima recompensa, que puede expresarse como un promedio de las primeras k1k-1 recompensas;
  • RkR_k es la kk-ésima recompensa real.

Intuición

Conociendo la estimación de la kk-ésima recompensa, QkQ_k, y la recompensa real RkR_k, se puede medir el error como la diferencia entre estos valores. Posteriormente, la siguiente estimación puede calcularse ajustando ligeramente la estimación previa en la dirección de la recompensa real, para reducir el error.

Esta intuición conduce a otra fórmula, que se expresa así:

Qk+1=Qk+α(RkQk)Q_{k+1} = Q_k + \alpha (R_k - Q_k)

donde α\alpha es un parámetro de tamaño de paso que controla la tasa de aprendizaje. Como en la fórmula anterior, alfa puede ser 1k\frac1k, y resultará en una estimación promedio muestral. Alternativamente, se utiliza comúnmente un α\alpha constante, ya que no requiere espacio adicional (para almacenar cuántas veces se ha tomado una acción) y permite la adaptación a entornos no estacionarios al dar mayor peso a las observaciones recientes.

Inicialización optimista

Al comienzo de un proceso de entrenamiento, las estimaciones de los valores de acción pueden variar significativamente, lo que puede llevar a una explotación prematura. Esto significa que el agente puede explotar su conocimiento inicial demasiado pronto, favoreciendo acciones subóptimas basadas en una experiencia limitada. Para mitigar este problema y fomentar la exploración inicial, una técnica simple y efectiva es la inicialización optimista.

En la inicialización optimista, los valores de acción se inicializan con valores relativamente altos (por ejemplo, Q0(a)=1Q_0(a) = 1 en lugar de 0). Este enfoque crea la impresión de que todas las acciones son prometedoras inicialmente. Como resultado, el agente está incentivado a explorar cada acción varias veces antes de decidirse por la mejor opción. Esta técnica es más eficiente cuando se utiliza en combinación con un tamaño de paso constante.

Note
Nota

La tasa de acción óptima en este y futuros gráficos se refiere a la proporción de entornos donde se eligió la acción óptima en un paso de tiempo dado.

Por ejemplo, si hay 10 entornos de prueba y la acción óptima fue seleccionada en 6 de ellos en el paso de tiempo 200, la tasa de acción óptima para ese paso de tiempo sería 0.6. Esta métrica es útil para evaluar el rendimiento porque se correlaciona con la maximización de la recompensa, sin depender de los valores exactos de la recompensa.

question mark

¿Para qué se utiliza la estimación de promedio muestral en la estimación del valor de acción?

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 2. Capítulo 2

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

course content

Contenido del Curso

Introducción al Aprendizaje por Refuerzo

Introducción al Aprendizaje por Refuerzo

1. Teoría Central de RL
2. Problema del Bandido de Varios Brazos
3. Programación Dinámica
4. Métodos de Monte Carlo
5. Aprendizaje por Diferencia Temporal

book
Valores de Acción

El valor de acción es un concepto fundamental en el problema MAB. Desempeña un papel crucial en varios algoritmos, incluidos epsilon-greedy y upper confidence bound. El objetivo principal de un valor de acción es proporcionar una estimación de la recompensa esperada al elegir una acción específica. Es similar a un valor estado-acción, pero es independiente de un estado debido a la naturaleza sin estado del problema MAB.

Definición de valor de acción

Formalmente, el valor de acción, denotado como Q(a)Q(a), representa la recompensa esperada al elegir la acción aa:

Q(a)=E[RA=a]\def\E{\operatorname{\mathbb{E}}} Q(a) = \E[R | A = a]

donde:

  • RR es la recompensa recibida;
  • AA es la acción seleccionada.

Dado que la distribución real de recompensas suele ser desconocida, debemos estimar Q(a)Q(a) utilizando los datos observados.

Estimación de los valores de acción

Existen varios métodos para estimar Q(a)Q(a) a partir de las recompensas observadas. El método más común es la estimación por promedio de muestras, que calcula la media de las recompensas recibidas al seleccionar la acción aa hasta el tiempo tt:

Qt(a)=R1+R2+...+RNt(a)Nt(a)=i=1Nt(a)RiNt(a)Q_t(a) = \frac{R_1 + R_2 + ... + R_{N_t(a)}}{N_t(a)} = \frac{\sum_{i=1}^{N_t(a)} R_i}{N_t(a)}

donde:

  • Qt(a)Q_t(a) es el valor estimado de la acción aa en el paso de tiempo tt;
  • Nt(a)N_t(a) es el número de veces que la acción aa ha sido seleccionada hasta el tiempo tt;
  • RiR_i es la recompensa obtenida en cada instancia en que se tomó la acción aa.

A medida que se recopilan más muestras, esta estimación converge al valor esperado real Q(a)Q_*(a), suponiendo que la distribución de recompensas permanezca estacionaria.

Note
Definición

Una distribución estacionaria es una distribución que no cambia con el tiempo, sin importar qué acciones se tomen o cómo cambie el entorno.

Regla de actualización incremental

Aunque la fórmula anterior puede utilizarse para estimar los valores de acción, requiere almacenar todas las recompensas previas y recalcular su suma en cada paso de tiempo. Con las actualizaciones incrementales, esto se vuelve innecesario. La fórmula para las actualizaciones incrementales se puede derivar de la siguiente manera:

Qk+1=1ki=1kRi=1k(Rk+i=1k1Ri)=1k(Rk+(k1)Qk)=1k(Rk+kQkQk)=Qk+1k(RkQk)\begin{aligned} Q_{k+1} &= \frac1k \sum_{i=1}^k R_i\\ &= \frac1k (R_k + \sum_{i=1}^{k-1} R_i)\\ &= \frac1k (R_k + (k-1) Q_k)\\ &= \frac1k (R_k + k Q_k - Q_k)\\ &= Q_k + \frac1k(R_k - Q_k) \end{aligned}

donde para alguna acción:

  • QkQ_k es una estimación de la kk-ésima recompensa, que puede expresarse como un promedio de las primeras k1k-1 recompensas;
  • RkR_k es la kk-ésima recompensa real.

Intuición

Conociendo la estimación de la kk-ésima recompensa, QkQ_k, y la recompensa real RkR_k, se puede medir el error como la diferencia entre estos valores. Posteriormente, la siguiente estimación puede calcularse ajustando ligeramente la estimación previa en la dirección de la recompensa real, para reducir el error.

Esta intuición conduce a otra fórmula, que se expresa así:

Qk+1=Qk+α(RkQk)Q_{k+1} = Q_k + \alpha (R_k - Q_k)

donde α\alpha es un parámetro de tamaño de paso que controla la tasa de aprendizaje. Como en la fórmula anterior, alfa puede ser 1k\frac1k, y resultará en una estimación promedio muestral. Alternativamente, se utiliza comúnmente un α\alpha constante, ya que no requiere espacio adicional (para almacenar cuántas veces se ha tomado una acción) y permite la adaptación a entornos no estacionarios al dar mayor peso a las observaciones recientes.

Inicialización optimista

Al comienzo de un proceso de entrenamiento, las estimaciones de los valores de acción pueden variar significativamente, lo que puede llevar a una explotación prematura. Esto significa que el agente puede explotar su conocimiento inicial demasiado pronto, favoreciendo acciones subóptimas basadas en una experiencia limitada. Para mitigar este problema y fomentar la exploración inicial, una técnica simple y efectiva es la inicialización optimista.

En la inicialización optimista, los valores de acción se inicializan con valores relativamente altos (por ejemplo, Q0(a)=1Q_0(a) = 1 en lugar de 0). Este enfoque crea la impresión de que todas las acciones son prometedoras inicialmente. Como resultado, el agente está incentivado a explorar cada acción varias veces antes de decidirse por la mejor opción. Esta técnica es más eficiente cuando se utiliza en combinación con un tamaño de paso constante.

Note
Nota

La tasa de acción óptima en este y futuros gráficos se refiere a la proporción de entornos donde se eligió la acción óptima en un paso de tiempo dado.

Por ejemplo, si hay 10 entornos de prueba y la acción óptima fue seleccionada en 6 de ellos en el paso de tiempo 200, la tasa de acción óptima para ese paso de tiempo sería 0.6. Esta métrica es útil para evaluar el rendimiento porque se correlaciona con la maximización de la recompensa, sin depender de los valores exactos de la recompensa.

question mark

¿Para qué se utiliza la estimación de promedio muestral en la estimación del valor de acción?

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 2. Capítulo 2
some-alt