Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Valores de Ação | Problema do Bandido de Múltiplos Braços
Introdução ao Aprendizado por Reforço
course content

Conteúdo do Curso

Introdução ao Aprendizado por Reforço

Introdução ao Aprendizado por Reforço

1. Teoria Central de RL
2. Problema do Bandido de Múltiplos Braços
3. Programação Dinâmica
4. Métodos de Monte Carlo
5. Aprendizado por Diferença Temporal

book
Valores de Ação

Valor da ação é um conceito fundamental no problema MAB. Desempenha um papel central em vários algoritmos, incluindo epsilon-greedy e limite superior de confiança. O principal objetivo de um valor da ação é fornecer uma estimativa da recompensa esperada ao escolher uma ação específica. É semelhante ao valor de estado-ação, mas é independente de estado devido à natureza sem estado do problema MAB.

Definição de Valor da Ação

Formalmente, o valor da ação, denotado como Q(a)Q(a), representa a recompensa esperada ao escolher a ação aa:

Q(a)=E[RA=a]\def\E{\operatorname{\mathbb{E}}} Q(a) = \E[R | A = a]

onde:

  • RR é a recompensa recebida;
  • AA é a ação selecionada.

Como a distribuição real de recompensas geralmente é desconhecida, é necessário estimar Q(a)Q(a) utilizando os dados observados.

Estimativa dos Valores das Ações

Existem várias maneiras de estimar Q(a)Q(a) com base nas recompensas observadas. O método mais comum é a estimativa pela média amostral, que calcula a média das recompensas recebidas ao selecionar a ação aa até o tempo tt:

Qt(a)=R1+R2+...+RNt(a)Nt(a)=i=1Nt(a)RiNt(a)Q_t(a) = \frac{R_1 + R_2 + ... + R_{N_t(a)}}{N_t(a)} = \frac{\sum_{i=1}^{N_t(a)} R_i}{N_t(a)}

onde:

  • Qt(a)Q_t(a) é o valor estimado da ação aa no instante de tempo tt;
  • Nt(a)N_t(a) é o número de vezes que a ação aa foi escolhida até o tempo tt;
  • RiR_i é a recompensa obtida em cada instância em que a ação aa foi tomada.

À medida que mais amostras são coletadas, essa estimativa converge para a recompensa esperada verdadeira Q(a)Q_*(a), assumindo que a distribuição de recompensas permanece estacionária.

Note
Definição

Uma distribuição estacionária é uma distribuição que não muda ao longo do tempo, independentemente das ações tomadas ou de como o ambiente muda.

Regra de Atualização Incremental

Embora a fórmula acima possa ser utilizada para estimar os valores das ações, ela exige o armazenamento de todas as recompensas anteriores e o recálculo de sua soma a cada passo de tempo. Com as atualizações incrementais, isso se torna desnecessário. A fórmula para atualizações incrementais pode ser derivada da seguinte forma:

Qk+1=1ki=1kRi=1k(Rk+i=1k1Ri)=1k(Rk+(k1)Qk)=1k(Rk+kQkQk)=Qk+1k(RkQk)\begin{aligned} Q_{k+1} &= \frac1k \sum_{i=1}^k R_i\\ &= \frac1k (R_k + \sum_{i=1}^{k-1} R_i)\\ &= \frac1k (R_k + (k-1) Q_k)\\ &= \frac1k (R_k + k Q_k - Q_k)\\ &= Q_k + \frac1k(R_k - Q_k) \end{aligned}

onde, para uma determinada ação:

  • QkQ_k é uma estimativa da kk-ésima recompensa, que pode ser expressa como a média das primeiras k1k-1 recompensas;
  • RkR_k é a kk-ésima recompensa real.

Intuição

Conhecendo a estimativa da kk-ésima recompensa, QkQ_k, e a recompensa real RkR_k, é possível medir o erro como a diferença entre esses valores. Em seguida, a próxima estimativa pode ser calculada ajustando levemente a estimativa anterior na direção da recompensa real, para reduzir o erro.

Essa intuição leva a outra fórmula, que se apresenta assim:

Qk+1=Qk+α(RkQk)Q_{k+1} = Q_k + \alpha (R_k - Q_k)

onde α\alpha é um parâmetro de taxa de atualização que controla a velocidade de aprendizado. Assim como na fórmula anterior, alfa pode ser 1k\frac1k, resultando em uma estimativa média amostral. Alternativamente, um α\alpha constante é frequentemente utilizado, pois não requer espaço adicional (para armazenar quantas vezes uma ação foi tomada) e permite adaptação a ambientes não estacionários ao atribuir mais peso às observações recentes.

Inicialização Otimista

No início de um processo de treinamento, as estimativas dos valores das ações podem variar significativamente, o que pode levar à exploração prematura. Isso significa que o agente pode explorar seu conhecimento inicial cedo demais, favorecendo ações subótimas com base em experiência limitada. Para mitigar esse problema e incentivar a exploração inicial, uma técnica simples e eficaz é a inicialização otimista.

Na inicialização otimista, os valores das ações são inicializados com valores relativamente altos (por exemplo, Q0(a)=1Q_0(a) = 1 em vez de 0). Essa abordagem cria a impressão de que todas as ações são promissoras inicialmente. Como resultado, o agente é incentivado a explorar cada ação várias vezes antes de escolher a melhor opção. Essa técnica é mais eficiente quando utilizada em combinação com um tamanho de passo constante.

Note
Nota

A taxa de ação ótima neste e nos próximos gráficos refere-se à proporção de ambientes em que a ação ótima foi escolhida em um determinado passo de tempo.

Por exemplo, se houver 10 ambientes de teste e a ação ótima for selecionada em 6 deles no passo de tempo 200, a taxa de ação ótima para esse passo de tempo seria 0,6. Essa métrica é útil para avaliar o desempenho porque está correlacionada com a maximização da recompensa, sem depender dos valores exatos das recompensas.

question mark

Para que serve a estimativa da média amostral na estimativa do valor da ação?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 2. Capítulo 2

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

course content

Conteúdo do Curso

Introdução ao Aprendizado por Reforço

Introdução ao Aprendizado por Reforço

1. Teoria Central de RL
2. Problema do Bandido de Múltiplos Braços
3. Programação Dinâmica
4. Métodos de Monte Carlo
5. Aprendizado por Diferença Temporal

book
Valores de Ação

Valor da ação é um conceito fundamental no problema MAB. Desempenha um papel central em vários algoritmos, incluindo epsilon-greedy e limite superior de confiança. O principal objetivo de um valor da ação é fornecer uma estimativa da recompensa esperada ao escolher uma ação específica. É semelhante ao valor de estado-ação, mas é independente de estado devido à natureza sem estado do problema MAB.

Definição de Valor da Ação

Formalmente, o valor da ação, denotado como Q(a)Q(a), representa a recompensa esperada ao escolher a ação aa:

Q(a)=E[RA=a]\def\E{\operatorname{\mathbb{E}}} Q(a) = \E[R | A = a]

onde:

  • RR é a recompensa recebida;
  • AA é a ação selecionada.

Como a distribuição real de recompensas geralmente é desconhecida, é necessário estimar Q(a)Q(a) utilizando os dados observados.

Estimativa dos Valores das Ações

Existem várias maneiras de estimar Q(a)Q(a) com base nas recompensas observadas. O método mais comum é a estimativa pela média amostral, que calcula a média das recompensas recebidas ao selecionar a ação aa até o tempo tt:

Qt(a)=R1+R2+...+RNt(a)Nt(a)=i=1Nt(a)RiNt(a)Q_t(a) = \frac{R_1 + R_2 + ... + R_{N_t(a)}}{N_t(a)} = \frac{\sum_{i=1}^{N_t(a)} R_i}{N_t(a)}

onde:

  • Qt(a)Q_t(a) é o valor estimado da ação aa no instante de tempo tt;
  • Nt(a)N_t(a) é o número de vezes que a ação aa foi escolhida até o tempo tt;
  • RiR_i é a recompensa obtida em cada instância em que a ação aa foi tomada.

À medida que mais amostras são coletadas, essa estimativa converge para a recompensa esperada verdadeira Q(a)Q_*(a), assumindo que a distribuição de recompensas permanece estacionária.

Note
Definição

Uma distribuição estacionária é uma distribuição que não muda ao longo do tempo, independentemente das ações tomadas ou de como o ambiente muda.

Regra de Atualização Incremental

Embora a fórmula acima possa ser utilizada para estimar os valores das ações, ela exige o armazenamento de todas as recompensas anteriores e o recálculo de sua soma a cada passo de tempo. Com as atualizações incrementais, isso se torna desnecessário. A fórmula para atualizações incrementais pode ser derivada da seguinte forma:

Qk+1=1ki=1kRi=1k(Rk+i=1k1Ri)=1k(Rk+(k1)Qk)=1k(Rk+kQkQk)=Qk+1k(RkQk)\begin{aligned} Q_{k+1} &= \frac1k \sum_{i=1}^k R_i\\ &= \frac1k (R_k + \sum_{i=1}^{k-1} R_i)\\ &= \frac1k (R_k + (k-1) Q_k)\\ &= \frac1k (R_k + k Q_k - Q_k)\\ &= Q_k + \frac1k(R_k - Q_k) \end{aligned}

onde, para uma determinada ação:

  • QkQ_k é uma estimativa da kk-ésima recompensa, que pode ser expressa como a média das primeiras k1k-1 recompensas;
  • RkR_k é a kk-ésima recompensa real.

Intuição

Conhecendo a estimativa da kk-ésima recompensa, QkQ_k, e a recompensa real RkR_k, é possível medir o erro como a diferença entre esses valores. Em seguida, a próxima estimativa pode ser calculada ajustando levemente a estimativa anterior na direção da recompensa real, para reduzir o erro.

Essa intuição leva a outra fórmula, que se apresenta assim:

Qk+1=Qk+α(RkQk)Q_{k+1} = Q_k + \alpha (R_k - Q_k)

onde α\alpha é um parâmetro de taxa de atualização que controla a velocidade de aprendizado. Assim como na fórmula anterior, alfa pode ser 1k\frac1k, resultando em uma estimativa média amostral. Alternativamente, um α\alpha constante é frequentemente utilizado, pois não requer espaço adicional (para armazenar quantas vezes uma ação foi tomada) e permite adaptação a ambientes não estacionários ao atribuir mais peso às observações recentes.

Inicialização Otimista

No início de um processo de treinamento, as estimativas dos valores das ações podem variar significativamente, o que pode levar à exploração prematura. Isso significa que o agente pode explorar seu conhecimento inicial cedo demais, favorecendo ações subótimas com base em experiência limitada. Para mitigar esse problema e incentivar a exploração inicial, uma técnica simples e eficaz é a inicialização otimista.

Na inicialização otimista, os valores das ações são inicializados com valores relativamente altos (por exemplo, Q0(a)=1Q_0(a) = 1 em vez de 0). Essa abordagem cria a impressão de que todas as ações são promissoras inicialmente. Como resultado, o agente é incentivado a explorar cada ação várias vezes antes de escolher a melhor opção. Essa técnica é mais eficiente quando utilizada em combinação com um tamanho de passo constante.

Note
Nota

A taxa de ação ótima neste e nos próximos gráficos refere-se à proporção de ambientes em que a ação ótima foi escolhida em um determinado passo de tempo.

Por exemplo, se houver 10 ambientes de teste e a ação ótima for selecionada em 6 deles no passo de tempo 200, a taxa de ação ótima para esse passo de tempo seria 0,6. Essa métrica é útil para avaliar o desempenho porque está correlacionada com a maximização da recompensa, sem depender dos valores exatos das recompensas.

question mark

Para que serve a estimativa da média amostral na estimativa do valor da ação?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 2. Capítulo 2
some-alt