Aprenda Valores de Ação | Problema do Bandido de Múltiplos Braços

Valor de ação é um conceito fundamental no problema MAB. Ele desempenha um papel crucial em vários algoritmos, incluindo epsilon-greedy e limite superior de confiança. O principal objetivo de um valor de ação é fornecer uma estimativa da recompensa esperada ao escolher uma ação específica. É semelhante ao valor de estado-ação, mas é independente de estado devido à natureza sem estado do problema MAB.

Definição de Valor de Ação

Formalmente, o valor de ação, denotado como $Q(a)$ , representa a recompensa esperada ao escolher a ação $a$ :

\def\E{\operatorname{\mathbb{E}}} Q(a) = \E[R | A = a]

onde:

$R$ é a recompensa recebida;
$A$ é a ação selecionada.

Como a distribuição real de recompensas geralmente é desconhecida, é necessário estimar $Q(a)$ utilizando os dados observados.

Estimativa dos Valores das Ações

Existem várias maneiras de estimar $Q(a)$ com base nas recompensas observadas. O método mais comum é a estimativa pela média amostral, que calcula a média das recompensas recebidas ao selecionar a ação $a$ até o tempo $t$ :

Q_t(a) = \frac{R_1 + R_2 + ... + R_{N_t(a)}}{N_t(a)} = \frac{\sum_{i=1}^{N_t(a)} R_i}{N_t(a)}

onde:

$Q_t(a)$ é o valor estimado da ação $a$ no instante de tempo $t$ ;
$N_t(a)$ é o número de vezes que a ação $a$ foi escolhida até o tempo $t$ ;
$R_i$ é a recompensa obtida em cada instância em que a ação $a$ foi tomada.

À medida que mais amostras são coletadas, essa estimativa converge para a recompensa esperada verdadeira $Q_*(a)$ , assumindo que a distribuição de recompensas permanece estacionária.

Definição

Uma distribuição estacionária é uma distribuição que não muda ao longo do tempo, independentemente das ações tomadas ou de como o ambiente muda.

Regra de Atualização Incremental

Embora a fórmula acima possa ser utilizada para estimar os valores das ações, ela exige o armazenamento de todas as recompensas anteriores e o recálculo de sua soma a cada passo de tempo. Com as atualizações incrementais, isso se torna desnecessário. A fórmula para atualizações incrementais pode ser derivada da seguinte forma:

\begin{aligned} Q_{k+1} &= \frac1k \sum_{i=1}^k R_i\\ &= \frac1k (R_k + \sum_{i=1}^{k-1} R_i)\\ &= \frac1k (R_k + (k-1) Q_k)\\ &= \frac1k (R_k + k Q_k - Q_k)\\ &= Q_k + \frac1k(R_k - Q_k) \end{aligned}

onde, para uma determinada ação:

$Q_k$ é uma estimativa da $k$ -ésima recompensa, que pode ser expressa como a média das primeiras $k-1$ recompensas;
$R_k$ é a $k$ -ésima recompensa real.

Intuição

Conhecendo a estimativa da $k$ -ésima recompensa, $Q_k$ , e a $k$ -ésima recompensa real, $R_k$ , é possível medir o erro como a diferença entre esses valores. Em seguida, a próxima estimativa pode ser calculada ajustando levemente a estimativa anterior na direção da recompensa real, para reduzir o erro.

Essa intuição leva a outra fórmula, que se apresenta assim:

Q_{k+1} = Q_k + \alpha (R_k - Q_k)

onde $\alpha$ é um parâmetro de taxa de atualização que controla a velocidade de aprendizado. Assim como na fórmula anterior, alfa pode ser $\frac1k$ , resultando em uma estimativa de média amostral. Alternativamente, um $\alpha$ constante é comumente utilizado, pois não requer espaço adicional (para armazenar quantas vezes uma ação foi escolhida) e permite adaptação a ambientes não estacionários ao atribuir mais peso às observações recentes.

Inicialização Otimista

No início de um processo de treinamento, as estimativas dos valores das ações podem variar significativamente, o que pode levar à exploração prematura. Isso significa que o agente pode explorar seu conhecimento inicial cedo demais, favorecendo ações subótimas com base em experiência limitada. Para mitigar esse problema e incentivar a exploração inicial, uma técnica simples e eficaz é a inicialização otimista.

Na inicialização otimista, os valores das ações são inicializados com valores relativamente altos (por exemplo, $Q_0(a) = 1$ em vez de 0). Essa abordagem cria a impressão de que todas as ações são promissoras inicialmente. Como resultado, o agente é incentivado a explorar cada ação várias vezes antes de escolher a melhor opção. Essa técnica é mais eficiente quando utilizada em combinação com um tamanho de passo constante.

Nota

A taxa de ação ótima neste e nos próximos gráficos refere-se à proporção de ambientes em que a ação ótima foi escolhida em um determinado passo de tempo.

Por exemplo, se houver 10 ambientes de teste e a ação ótima for selecionada em 6 deles no passo de tempo 200, a taxa de ação ótima para esse passo de tempo seria 0,6. Essa métrica é útil para avaliar o desempenho porque está correlacionada com a maximização da recompensa, sem depender dos valores exatos das recompensas.

Tudo estava claro?

Obrigado pelo seu feedback!

Seção 2. Capítulo 2

Pergunte à IA

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Suggested prompts:

Can you explain more about the difference between sample average and incremental update methods?

How does optimistic initialization affect the exploration-exploitation tradeoff?

What are some practical scenarios where constant step-size is preferred over sample average?

Deslize para mostrar o menu

Definição de Valor de Ação

Formalmente, o valor de ação, denotado como $Q(a)$ , representa a recompensa esperada ao escolher a ação $a$ :

\def\E{\operatorname{\mathbb{E}}} Q(a) = \E[R | A = a]

onde:

$R$ é a recompensa recebida;
$A$ é a ação selecionada.

Como a distribuição real de recompensas geralmente é desconhecida, é necessário estimar $Q(a)$ utilizando os dados observados.

Estimativa dos Valores das Ações

Q_t(a) = \frac{R_1 + R_2 + ... + R_{N_t(a)}}{N_t(a)} = \frac{\sum_{i=1}^{N_t(a)} R_i}{N_t(a)}

onde:

$Q_t(a)$ é o valor estimado da ação $a$ no instante de tempo $t$ ;
$N_t(a)$ é o número de vezes que a ação $a$ foi escolhida até o tempo $t$ ;
$R_i$ é a recompensa obtida em cada instância em que a ação $a$ foi tomada.

Definição

Uma distribuição estacionária é uma distribuição que não muda ao longo do tempo, independentemente das ações tomadas ou de como o ambiente muda.

Regra de Atualização Incremental

\begin{aligned} Q_{k+1} &= \frac1k \sum_{i=1}^k R_i\\ &= \frac1k (R_k + \sum_{i=1}^{k-1} R_i)\\ &= \frac1k (R_k + (k-1) Q_k)\\ &= \frac1k (R_k + k Q_k - Q_k)\\ &= Q_k + \frac1k(R_k - Q_k) \end{aligned}

onde, para uma determinada ação:

$Q_k$ é uma estimativa da $k$ -ésima recompensa, que pode ser expressa como a média das primeiras $k-1$ recompensas;
$R_k$ é a $k$ -ésima recompensa real.

Intuição

Essa intuição leva a outra fórmula, que se apresenta assim:

Q_{k+1} = Q_k + \alpha (R_k - Q_k)

Inicialização Otimista

Nota

A taxa de ação ótima neste e nos próximos gráficos refere-se à proporção de ambientes em que a ação ótima foi escolhida em um determinado passo de tempo.

Tudo estava claro?

Obrigado pelo seu feedback!

Seção 2. Capítulo 2