Conteúdo do Curso
Introdução ao Aprendizado por Reforço
Introdução ao Aprendizado por Reforço
Implementações Incrementais
Armazenar cada retorno para cada par estado-ação pode rapidamente esgotar a memória e aumentar significativamente o tempo de computação — especialmente em ambientes grandes. Essa limitação afeta tanto os algoritmos de controle Monte Carlo on-policy quanto off-policy. Para lidar com isso, adotamos estratégias de computação incremental, semelhantes às utilizadas em algoritmos multi-armed bandit. Esses métodos permitem que as estimativas de valor sejam atualizadas em tempo real, sem a necessidade de manter todo o histórico de retornos.
Controle Monte Carlo On-Policy
Para o método on-policy, a estratégia de atualização é semelhante à utilizada em algoritmos MAB:
onde para estimativa da média. Os únicos valores que precisam ser armazenados são as estimativas atuais dos valores de ação e a quantidade de vezes que o par estado-ação foi visitado .
Pseudocódigo
Controle Monte Carlo Off-Policy
Para o método off-policy com amostragem de importância ordinária, tudo é igual ao método on-policy.
Uma situação mais interessante ocorre com amostragem de importância ponderada. A equação permanece a mesma:
mas não pode ser usada porque:
- Cada retorno é ponderado por ;
- A soma final é dividida não por , mas por .
O valor de que pode ser realmente utilizado neste caso é igual a onde:
- é o da trajetória atual;
- é igual a .
E cada vez que o par estado-ação ocorre, o da trajetória atual é adicionado a :
Pseudocódigo
Obrigado pelo seu feedback!