Implementações Incrementais
Armazenar cada retorno para cada par estado-ação pode rapidamente esgotar a memória e aumentar significativamente o tempo de computação — especialmente em ambientes grandes. Essa limitação afeta tanto os algoritmos de controle Monte Carlo on-policy quanto off-policy. Para lidar com isso, adotamos estratégias de computação incremental, semelhantes às utilizadas em algoritmos multi-armed bandit. Esses métodos permitem que as estimativas de valor sejam atualizadas em tempo real, sem a necessidade de manter todo o histórico de retornos.
Controle Monte Carlo On-Policy
Para o método on-policy, a estratégia de atualização é semelhante à utilizada em algoritmos MAB:
Q(s,a)←Q(s,a)+α(G−Q(s,a))onde α=N(s,a)1 para estimativa da média. Os únicos valores que precisam ser armazenados são as estimativas atuais dos valores de ação Q(s,a) e a quantidade de vezes que o par estado-ação (s,a) foi visitado N(s,a).
Pseudocódigo
Controle Monte Carlo Off-Policy
Para o método off-policy com amostragem de importância ordinária, tudo é igual ao método on-policy.
Uma situação mais interessante ocorre com amostragem de importância ponderada. A equação permanece a mesma:
Q(s,a)←Q(s,a)+α(G−Q(s,a))mas α=N(s,a)1 não pode ser usada porque:
- Cada retorno é ponderado por ρ;
- A soma final é dividida não por N(s,a), mas por ∑ρ(s,a).
O valor de α que pode ser realmente utilizado neste caso é igual a C(s,a)W onde:
- W é o ρ da trajetória atual;
- C(s,a) é igual a ∑ρ(s,a).
E cada vez que o par estado-ação (s,a) ocorre, o ρ da trajetória atual é adicionado a C(s,a):
C(s,a)←C(s,a)+WPseudocódigo
Obrigado pelo seu feedback!
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo
Awesome!
Completion rate improved to 2.7
Implementações Incrementais
Deslize para mostrar o menu
Armazenar cada retorno para cada par estado-ação pode rapidamente esgotar a memória e aumentar significativamente o tempo de computação — especialmente em ambientes grandes. Essa limitação afeta tanto os algoritmos de controle Monte Carlo on-policy quanto off-policy. Para lidar com isso, adotamos estratégias de computação incremental, semelhantes às utilizadas em algoritmos multi-armed bandit. Esses métodos permitem que as estimativas de valor sejam atualizadas em tempo real, sem a necessidade de manter todo o histórico de retornos.
Controle Monte Carlo On-Policy
Para o método on-policy, a estratégia de atualização é semelhante à utilizada em algoritmos MAB:
Q(s,a)←Q(s,a)+α(G−Q(s,a))onde α=N(s,a)1 para estimativa da média. Os únicos valores que precisam ser armazenados são as estimativas atuais dos valores de ação Q(s,a) e a quantidade de vezes que o par estado-ação (s,a) foi visitado N(s,a).
Pseudocódigo
Controle Monte Carlo Off-Policy
Para o método off-policy com amostragem de importância ordinária, tudo é igual ao método on-policy.
Uma situação mais interessante ocorre com amostragem de importância ponderada. A equação permanece a mesma:
Q(s,a)←Q(s,a)+α(G−Q(s,a))mas α=N(s,a)1 não pode ser usada porque:
- Cada retorno é ponderado por ρ;
- A soma final é dividida não por N(s,a), mas por ∑ρ(s,a).
O valor de α que pode ser realmente utilizado neste caso é igual a C(s,a)W onde:
- W é o ρ da trajetória atual;
- C(s,a) é igual a ∑ρ(s,a).
E cada vez que o par estado-ação (s,a) ocorre, o ρ da trajetória atual é adicionado a C(s,a):
C(s,a)←C(s,a)+WPseudocódigo
Obrigado pelo seu feedback!