Conteúdo do Curso
Introdução ao Aprendizado por Reforço
Introdução ao Aprendizado por Reforço
Valores de Ação
Valor da ação é um conceito fundamental no problema MAB. Desempenha um papel central em vários algoritmos, incluindo epsilon-greedy e limite superior de confiança. O principal objetivo de um valor da ação é fornecer uma estimativa da recompensa esperada ao escolher uma ação específica. É semelhante ao valor de estado-ação, mas é independente de estado devido à natureza sem estado do problema MAB.
Definição de Valor da Ação
Formalmente, o valor da ação, denotado como , representa a recompensa esperada ao escolher a ação :
onde:
- é a recompensa recebida;
- é a ação selecionada.
Como a distribuição real de recompensas geralmente é desconhecida, é necessário estimar utilizando os dados observados.
Estimativa dos Valores das Ações
Existem várias maneiras de estimar com base nas recompensas observadas. O método mais comum é a estimativa pela média amostral, que calcula a média das recompensas recebidas ao selecionar a ação até o tempo :
onde:
- é o valor estimado da ação no instante de tempo ;
- é o número de vezes que a ação foi escolhida até o tempo ;
- é a recompensa obtida em cada instância em que a ação foi tomada.
À medida que mais amostras são coletadas, essa estimativa converge para a recompensa esperada verdadeira , assumindo que a distribuição de recompensas permanece estacionária.
Uma distribuição estacionária é uma distribuição que não muda ao longo do tempo, independentemente das ações tomadas ou de como o ambiente muda.
Regra de Atualização Incremental
Embora a fórmula acima possa ser utilizada para estimar os valores das ações, ela exige o armazenamento de todas as recompensas anteriores e o recálculo de sua soma a cada passo de tempo. Com as atualizações incrementais, isso se torna desnecessário. A fórmula para atualizações incrementais pode ser derivada da seguinte forma:
onde, para uma determinada ação:
- é uma estimativa da -ésima recompensa, que pode ser expressa como a média das primeiras recompensas;
- é a -ésima recompensa real.
Intuição
Conhecendo a estimativa da -ésima recompensa, , e a recompensa real , é possível medir o erro como a diferença entre esses valores. Em seguida, a próxima estimativa pode ser calculada ajustando levemente a estimativa anterior na direção da recompensa real, para reduzir o erro.
Essa intuição leva a outra fórmula, que se apresenta assim:
onde é um parâmetro de taxa de atualização que controla a velocidade de aprendizado. Assim como na fórmula anterior, alfa pode ser , resultando em uma estimativa média amostral. Alternativamente, um constante é frequentemente utilizado, pois não requer espaço adicional (para armazenar quantas vezes uma ação foi tomada) e permite adaptação a ambientes não estacionários ao atribuir mais peso às observações recentes.
Inicialização Otimista
No início de um processo de treinamento, as estimativas dos valores das ações podem variar significativamente, o que pode levar à exploração prematura. Isso significa que o agente pode explorar seu conhecimento inicial cedo demais, favorecendo ações subótimas com base em experiência limitada. Para mitigar esse problema e incentivar a exploração inicial, uma técnica simples e eficaz é a inicialização otimista.
Na inicialização otimista, os valores das ações são inicializados com valores relativamente altos (por exemplo, em vez de 0). Essa abordagem cria a impressão de que todas as ações são promissoras inicialmente. Como resultado, o agente é incentivado a explorar cada ação várias vezes antes de escolher a melhor opção. Essa técnica é mais eficiente quando utilizada em combinação com um tamanho de passo constante.
A taxa de ação ótima neste e nos próximos gráficos refere-se à proporção de ambientes em que a ação ótima foi escolhida em um determinado passo de tempo.
Por exemplo, se houver 10 ambientes de teste e a ação ótima for selecionada em 6 deles no passo de tempo 200, a taxa de ação ótima para esse passo de tempo seria 0,6. Essa métrica é útil para avaliar o desempenho porque está correlacionada com a maximização da recompensa, sem depender dos valores exatos das recompensas.
Obrigado pelo seu feedback!