Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Valores de Ação | Problema do Bandido de Múltiplos Braços
Introdução ao Aprendizado por Reforço

bookValores de Ação

Valor da ação é um conceito fundamental no problema MAB. Desempenha um papel central em vários algoritmos, incluindo epsilon-greedy e limite superior de confiança. O principal objetivo de um valor da ação é fornecer uma estimativa da recompensa esperada ao escolher uma ação específica. É semelhante ao valor de estado-ação, mas é independente de estado devido à natureza sem estado do problema MAB.

Definição de Valor da Ação

Formalmente, o valor da ação, denotado como Q(a)Q(a), representa a recompensa esperada ao escolher a ação aa:

Q(a)=E[RA=a]\def\E{\operatorname{\mathbb{E}}} Q(a) = \E[R | A = a]

onde:

  • RR é a recompensa recebida;
  • AA é a ação selecionada.

Como a distribuição real de recompensas geralmente é desconhecida, é necessário estimar Q(a)Q(a) utilizando os dados observados.

Estimativa dos Valores das Ações

Existem várias maneiras de estimar Q(a)Q(a) com base nas recompensas observadas. O método mais comum é a estimativa pela média amostral, que calcula a média das recompensas recebidas ao selecionar a ação aa até o tempo tt:

Qt(a)=R1+R2+...+RNt(a)Nt(a)=i=1Nt(a)RiNt(a)Q_t(a) = \frac{R_1 + R_2 + ... + R_{N_t(a)}}{N_t(a)} = \frac{\sum_{i=1}^{N_t(a)} R_i}{N_t(a)}

onde:

  • Qt(a)Q_t(a) é o valor estimado da ação aa no instante de tempo tt;
  • Nt(a)N_t(a) é o número de vezes que a ação aa foi escolhida até o tempo tt;
  • RiR_i é a recompensa obtida em cada instância em que a ação aa foi tomada.

À medida que mais amostras são coletadas, essa estimativa converge para a recompensa esperada verdadeira Q(a)Q_*(a), assumindo que a distribuição de recompensas permanece estacionária.

Note
Definição

Uma distribuição estacionária é uma distribuição que não muda ao longo do tempo, independentemente das ações tomadas ou de como o ambiente muda.

Regra de Atualização Incremental

Embora a fórmula acima possa ser utilizada para estimar os valores das ações, ela exige o armazenamento de todas as recompensas anteriores e o recálculo de sua soma a cada passo de tempo. Com as atualizações incrementais, isso se torna desnecessário. A fórmula para atualizações incrementais pode ser derivada da seguinte forma:

Qk+1=1ki=1kRi=1k(Rk+i=1k1Ri)=1k(Rk+(k1)Qk)=1k(Rk+kQkQk)=Qk+1k(RkQk)\begin{aligned} Q_{k+1} &= \frac1k \sum_{i=1}^k R_i\\ &= \frac1k (R_k + \sum_{i=1}^{k-1} R_i)\\ &= \frac1k (R_k + (k-1) Q_k)\\ &= \frac1k (R_k + k Q_k - Q_k)\\ &= Q_k + \frac1k(R_k - Q_k) \end{aligned}

onde, para uma determinada ação:

  • QkQ_k é uma estimativa da kk-ésima recompensa, que pode ser expressa como a média das primeiras k1k-1 recompensas;
  • RkR_k é a kk-ésima recompensa real.

Intuição

Conhecendo a estimativa da kk-ésima recompensa, QkQ_k, e a recompensa real RkR_k, é possível medir o erro como a diferença entre esses valores. Em seguida, a próxima estimativa pode ser calculada ajustando levemente a estimativa anterior na direção da recompensa real, para reduzir o erro.

Essa intuição leva a outra fórmula, que se apresenta assim:

Qk+1=Qk+α(RkQk)Q_{k+1} = Q_k + \alpha (R_k - Q_k)

onde α\alpha é um parâmetro de taxa de atualização que controla a velocidade de aprendizado. Assim como na fórmula anterior, alfa pode ser 1k\frac1k, resultando em uma estimativa média amostral. Alternativamente, um α\alpha constante é frequentemente utilizado, pois não requer espaço adicional (para armazenar quantas vezes uma ação foi tomada) e permite adaptação a ambientes não estacionários ao atribuir mais peso às observações recentes.

Inicialização Otimista

No início de um processo de treinamento, as estimativas dos valores das ações podem variar significativamente, o que pode levar à exploração prematura. Isso significa que o agente pode explorar seu conhecimento inicial cedo demais, favorecendo ações subótimas com base em experiência limitada. Para mitigar esse problema e incentivar a exploração inicial, uma técnica simples e eficaz é a inicialização otimista.

Na inicialização otimista, os valores das ações são inicializados com valores relativamente altos (por exemplo, Q0(a)=1Q_0(a) = 1 em vez de 0). Essa abordagem cria a impressão de que todas as ações são promissoras inicialmente. Como resultado, o agente é incentivado a explorar cada ação várias vezes antes de escolher a melhor opção. Essa técnica é mais eficiente quando utilizada em combinação com um tamanho de passo constante.

Note
Nota

A taxa de ação ótima neste e nos próximos gráficos refere-se à proporção de ambientes em que a ação ótima foi escolhida em um determinado passo de tempo.

Por exemplo, se houver 10 ambientes de teste e a ação ótima for selecionada em 6 deles no passo de tempo 200, a taxa de ação ótima para esse passo de tempo seria 0,6. Essa métrica é útil para avaliar o desempenho porque está correlacionada com a maximização da recompensa, sem depender dos valores exatos das recompensas.

question mark

Para que serve a estimativa da média amostral na estimativa do valor da ação?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 2. Capítulo 2

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Awesome!

Completion rate improved to 2.7

bookValores de Ação

Deslize para mostrar o menu

Valor da ação é um conceito fundamental no problema MAB. Desempenha um papel central em vários algoritmos, incluindo epsilon-greedy e limite superior de confiança. O principal objetivo de um valor da ação é fornecer uma estimativa da recompensa esperada ao escolher uma ação específica. É semelhante ao valor de estado-ação, mas é independente de estado devido à natureza sem estado do problema MAB.

Definição de Valor da Ação

Formalmente, o valor da ação, denotado como Q(a)Q(a), representa a recompensa esperada ao escolher a ação aa:

Q(a)=E[RA=a]\def\E{\operatorname{\mathbb{E}}} Q(a) = \E[R | A = a]

onde:

  • RR é a recompensa recebida;
  • AA é a ação selecionada.

Como a distribuição real de recompensas geralmente é desconhecida, é necessário estimar Q(a)Q(a) utilizando os dados observados.

Estimativa dos Valores das Ações

Existem várias maneiras de estimar Q(a)Q(a) com base nas recompensas observadas. O método mais comum é a estimativa pela média amostral, que calcula a média das recompensas recebidas ao selecionar a ação aa até o tempo tt:

Qt(a)=R1+R2+...+RNt(a)Nt(a)=i=1Nt(a)RiNt(a)Q_t(a) = \frac{R_1 + R_2 + ... + R_{N_t(a)}}{N_t(a)} = \frac{\sum_{i=1}^{N_t(a)} R_i}{N_t(a)}

onde:

  • Qt(a)Q_t(a) é o valor estimado da ação aa no instante de tempo tt;
  • Nt(a)N_t(a) é o número de vezes que a ação aa foi escolhida até o tempo tt;
  • RiR_i é a recompensa obtida em cada instância em que a ação aa foi tomada.

À medida que mais amostras são coletadas, essa estimativa converge para a recompensa esperada verdadeira Q(a)Q_*(a), assumindo que a distribuição de recompensas permanece estacionária.

Note
Definição

Uma distribuição estacionária é uma distribuição que não muda ao longo do tempo, independentemente das ações tomadas ou de como o ambiente muda.

Regra de Atualização Incremental

Embora a fórmula acima possa ser utilizada para estimar os valores das ações, ela exige o armazenamento de todas as recompensas anteriores e o recálculo de sua soma a cada passo de tempo. Com as atualizações incrementais, isso se torna desnecessário. A fórmula para atualizações incrementais pode ser derivada da seguinte forma:

Qk+1=1ki=1kRi=1k(Rk+i=1k1Ri)=1k(Rk+(k1)Qk)=1k(Rk+kQkQk)=Qk+1k(RkQk)\begin{aligned} Q_{k+1} &= \frac1k \sum_{i=1}^k R_i\\ &= \frac1k (R_k + \sum_{i=1}^{k-1} R_i)\\ &= \frac1k (R_k + (k-1) Q_k)\\ &= \frac1k (R_k + k Q_k - Q_k)\\ &= Q_k + \frac1k(R_k - Q_k) \end{aligned}

onde, para uma determinada ação:

  • QkQ_k é uma estimativa da kk-ésima recompensa, que pode ser expressa como a média das primeiras k1k-1 recompensas;
  • RkR_k é a kk-ésima recompensa real.

Intuição

Conhecendo a estimativa da kk-ésima recompensa, QkQ_k, e a recompensa real RkR_k, é possível medir o erro como a diferença entre esses valores. Em seguida, a próxima estimativa pode ser calculada ajustando levemente a estimativa anterior na direção da recompensa real, para reduzir o erro.

Essa intuição leva a outra fórmula, que se apresenta assim:

Qk+1=Qk+α(RkQk)Q_{k+1} = Q_k + \alpha (R_k - Q_k)

onde α\alpha é um parâmetro de taxa de atualização que controla a velocidade de aprendizado. Assim como na fórmula anterior, alfa pode ser 1k\frac1k, resultando em uma estimativa média amostral. Alternativamente, um α\alpha constante é frequentemente utilizado, pois não requer espaço adicional (para armazenar quantas vezes uma ação foi tomada) e permite adaptação a ambientes não estacionários ao atribuir mais peso às observações recentes.

Inicialização Otimista

No início de um processo de treinamento, as estimativas dos valores das ações podem variar significativamente, o que pode levar à exploração prematura. Isso significa que o agente pode explorar seu conhecimento inicial cedo demais, favorecendo ações subótimas com base em experiência limitada. Para mitigar esse problema e incentivar a exploração inicial, uma técnica simples e eficaz é a inicialização otimista.

Na inicialização otimista, os valores das ações são inicializados com valores relativamente altos (por exemplo, Q0(a)=1Q_0(a) = 1 em vez de 0). Essa abordagem cria a impressão de que todas as ações são promissoras inicialmente. Como resultado, o agente é incentivado a explorar cada ação várias vezes antes de escolher a melhor opção. Essa técnica é mais eficiente quando utilizada em combinação com um tamanho de passo constante.

Note
Nota

A taxa de ação ótima neste e nos próximos gráficos refere-se à proporção de ambientes em que a ação ótima foi escolhida em um determinado passo de tempo.

Por exemplo, se houver 10 ambientes de teste e a ação ótima for selecionada em 6 deles no passo de tempo 200, a taxa de ação ótima para esse passo de tempo seria 0,6. Essa métrica é útil para avaliar o desempenho porque está correlacionada com a maximização da recompensa, sem depender dos valores exatos das recompensas.

question mark

Para que serve a estimativa da média amostral na estimativa do valor da ação?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 2. Capítulo 2
some-alt