Valores de Ação
Valor da ação é um conceito fundamental no problema MAB. Desempenha um papel central em vários algoritmos, incluindo epsilon-greedy e limite superior de confiança. O principal objetivo de um valor da ação é fornecer uma estimativa da recompensa esperada ao escolher uma ação específica. É semelhante ao valor de estado-ação, mas é independente de estado devido à natureza sem estado do problema MAB.
Definição de Valor da Ação
Formalmente, o valor da ação, denotado como Q(a), representa a recompensa esperada ao escolher a ação a:
Q(a)=E[R∣A=a]onde:
- R é a recompensa recebida;
- A é a ação selecionada.
Como a distribuição real de recompensas geralmente é desconhecida, é necessário estimar Q(a) utilizando os dados observados.
Estimativa dos Valores das Ações
Existem várias maneiras de estimar Q(a) com base nas recompensas observadas. O método mais comum é a estimativa pela média amostral, que calcula a média das recompensas recebidas ao selecionar a ação a até o tempo t:
Qt(a)=Nt(a)R1+R2+...+RNt(a)=Nt(a)∑i=1Nt(a)Rionde:
- Qt(a) é o valor estimado da ação a no instante de tempo t;
- Nt(a) é o número de vezes que a ação a foi escolhida até o tempo t;
- Ri é a recompensa obtida em cada instância em que a ação a foi tomada.
À medida que mais amostras são coletadas, essa estimativa converge para a recompensa esperada verdadeira Q∗(a), assumindo que a distribuição de recompensas permanece estacionária.
Uma distribuição estacionária é uma distribuição que não muda ao longo do tempo, independentemente das ações tomadas ou de como o ambiente muda.
Regra de Atualização Incremental
Embora a fórmula acima possa ser utilizada para estimar os valores das ações, ela exige o armazenamento de todas as recompensas anteriores e o recálculo de sua soma a cada passo de tempo. Com as atualizações incrementais, isso se torna desnecessário. A fórmula para atualizações incrementais pode ser derivada da seguinte forma:
Qk+1=k1i=1∑kRi=k1(Rk+i=1∑k−1Ri)=k1(Rk+(k−1)Qk)=k1(Rk+kQk−Qk)=Qk+k1(Rk−Qk)onde, para uma determinada ação:
- Qk é uma estimativa da k-ésima recompensa, que pode ser expressa como a média das primeiras k−1 recompensas;
- Rk é a k-ésima recompensa real.
Intuição
Conhecendo a estimativa da k-ésima recompensa, Qk, e a recompensa real Rk, é possível medir o erro como a diferença entre esses valores. Em seguida, a próxima estimativa pode ser calculada ajustando levemente a estimativa anterior na direção da recompensa real, para reduzir o erro.
Essa intuição leva a outra fórmula, que se apresenta assim:
Qk+1=Qk+α(Rk−Qk)onde α é um parâmetro de taxa de atualização que controla a velocidade de aprendizado. Assim como na fórmula anterior, alfa pode ser k1, resultando em uma estimativa média amostral. Alternativamente, um α constante é frequentemente utilizado, pois não requer espaço adicional (para armazenar quantas vezes uma ação foi tomada) e permite adaptação a ambientes não estacionários ao atribuir mais peso às observações recentes.
Inicialização Otimista
No início de um processo de treinamento, as estimativas dos valores das ações podem variar significativamente, o que pode levar à exploração prematura. Isso significa que o agente pode explorar seu conhecimento inicial cedo demais, favorecendo ações subótimas com base em experiência limitada. Para mitigar esse problema e incentivar a exploração inicial, uma técnica simples e eficaz é a inicialização otimista.
Na inicialização otimista, os valores das ações são inicializados com valores relativamente altos (por exemplo, Q0(a)=1 em vez de 0). Essa abordagem cria a impressão de que todas as ações são promissoras inicialmente. Como resultado, o agente é incentivado a explorar cada ação várias vezes antes de escolher a melhor opção. Essa técnica é mais eficiente quando utilizada em combinação com um tamanho de passo constante.
A taxa de ação ótima neste e nos próximos gráficos refere-se à proporção de ambientes em que a ação ótima foi escolhida em um determinado passo de tempo.
Por exemplo, se houver 10 ambientes de teste e a ação ótima for selecionada em 6 deles no passo de tempo 200, a taxa de ação ótima para esse passo de tempo seria 0,6. Essa métrica é útil para avaliar o desempenho porque está correlacionada com a maximização da recompensa, sem depender dos valores exatos das recompensas.
Obrigado pelo seu feedback!
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo
Awesome!
Completion rate improved to 2.7
Valores de Ação
Deslize para mostrar o menu
Valor da ação é um conceito fundamental no problema MAB. Desempenha um papel central em vários algoritmos, incluindo epsilon-greedy e limite superior de confiança. O principal objetivo de um valor da ação é fornecer uma estimativa da recompensa esperada ao escolher uma ação específica. É semelhante ao valor de estado-ação, mas é independente de estado devido à natureza sem estado do problema MAB.
Definição de Valor da Ação
Formalmente, o valor da ação, denotado como Q(a), representa a recompensa esperada ao escolher a ação a:
Q(a)=E[R∣A=a]onde:
- R é a recompensa recebida;
- A é a ação selecionada.
Como a distribuição real de recompensas geralmente é desconhecida, é necessário estimar Q(a) utilizando os dados observados.
Estimativa dos Valores das Ações
Existem várias maneiras de estimar Q(a) com base nas recompensas observadas. O método mais comum é a estimativa pela média amostral, que calcula a média das recompensas recebidas ao selecionar a ação a até o tempo t:
Qt(a)=Nt(a)R1+R2+...+RNt(a)=Nt(a)∑i=1Nt(a)Rionde:
- Qt(a) é o valor estimado da ação a no instante de tempo t;
- Nt(a) é o número de vezes que a ação a foi escolhida até o tempo t;
- Ri é a recompensa obtida em cada instância em que a ação a foi tomada.
À medida que mais amostras são coletadas, essa estimativa converge para a recompensa esperada verdadeira Q∗(a), assumindo que a distribuição de recompensas permanece estacionária.
Uma distribuição estacionária é uma distribuição que não muda ao longo do tempo, independentemente das ações tomadas ou de como o ambiente muda.
Regra de Atualização Incremental
Embora a fórmula acima possa ser utilizada para estimar os valores das ações, ela exige o armazenamento de todas as recompensas anteriores e o recálculo de sua soma a cada passo de tempo. Com as atualizações incrementais, isso se torna desnecessário. A fórmula para atualizações incrementais pode ser derivada da seguinte forma:
Qk+1=k1i=1∑kRi=k1(Rk+i=1∑k−1Ri)=k1(Rk+(k−1)Qk)=k1(Rk+kQk−Qk)=Qk+k1(Rk−Qk)onde, para uma determinada ação:
- Qk é uma estimativa da k-ésima recompensa, que pode ser expressa como a média das primeiras k−1 recompensas;
- Rk é a k-ésima recompensa real.
Intuição
Conhecendo a estimativa da k-ésima recompensa, Qk, e a recompensa real Rk, é possível medir o erro como a diferença entre esses valores. Em seguida, a próxima estimativa pode ser calculada ajustando levemente a estimativa anterior na direção da recompensa real, para reduzir o erro.
Essa intuição leva a outra fórmula, que se apresenta assim:
Qk+1=Qk+α(Rk−Qk)onde α é um parâmetro de taxa de atualização que controla a velocidade de aprendizado. Assim como na fórmula anterior, alfa pode ser k1, resultando em uma estimativa média amostral. Alternativamente, um α constante é frequentemente utilizado, pois não requer espaço adicional (para armazenar quantas vezes uma ação foi tomada) e permite adaptação a ambientes não estacionários ao atribuir mais peso às observações recentes.
Inicialização Otimista
No início de um processo de treinamento, as estimativas dos valores das ações podem variar significativamente, o que pode levar à exploração prematura. Isso significa que o agente pode explorar seu conhecimento inicial cedo demais, favorecendo ações subótimas com base em experiência limitada. Para mitigar esse problema e incentivar a exploração inicial, uma técnica simples e eficaz é a inicialização otimista.
Na inicialização otimista, os valores das ações são inicializados com valores relativamente altos (por exemplo, Q0(a)=1 em vez de 0). Essa abordagem cria a impressão de que todas as ações são promissoras inicialmente. Como resultado, o agente é incentivado a explorar cada ação várias vezes antes de escolher a melhor opção. Essa técnica é mais eficiente quando utilizada em combinação com um tamanho de passo constante.
A taxa de ação ótima neste e nos próximos gráficos refere-se à proporção de ambientes em que a ação ótima foi escolhida em um determinado passo de tempo.
Por exemplo, se houver 10 ambientes de teste e a ação ótima for selecionada em 6 deles no passo de tempo 200, a taxa de ação ótima para esse passo de tempo seria 0,6. Essa métrica é útil para avaliar o desempenho porque está correlacionada com a maximização da recompensa, sem depender dos valores exatos das recompensas.
Obrigado pelo seu feedback!