Conteúdo do Curso
Introdução ao Aprendizado por Reforço
Introdução ao Aprendizado por Reforço
SARSA: Aprendizado TD On-Policy
Assim como nos métodos de Monte Carlo, podemos seguir o framework de iteração generalizada de política (GPI) para passar da estimativa de funções de valor para o aprendizado de políticas ótimas. No entanto, esse processo introduz um desafio já conhecido: o dilema exploração-exploração. Da mesma forma, existem duas abordagens que podemos utilizar: on-policy e off-policy. Primeiro, vamos abordar o método on-policy — SARSA.
SARSA é um algoritmo de controle TD on-policy utilizado para estimar a função valor de ação . Ele atualiza suas estimativas com base na ação realmente executada, caracterizando-se como um algoritmo on-policy.
O acrônimo SARSA vem dos cinco componentes principais usados na atualização:
- S: estado atual ;
- A: ação executada ;
- R: recompensa recebida ;
- S: próximo estado ;
- A: próxima ação .
Regra de Atualização
A regra de atualização é semelhante ao TD(0), apenas substituindo a função de valor de estado pela função de valor de ação:
O é a ação que será realmente tomada no próximo passo, e é selecionada de acordo com a política atual. Isso significa que os efeitos da exploração são incorporados ao processo de aprendizado.
Após cada atualização da função de valor de ação, a política também é atualizada, permitindo que o agente utilize imediatamente as novas estimativas.
Pseudocódigo
Quando usar SARSA?
SARSA é preferível quando:
- Você está lidando com ambientes com alta estocasticidade (por exemplo, superfícies escorregadias, transições não confiáveis);
- É aceitável uma convergência mais lenta em troca de um comportamento mais seguro durante o aprendizado.
Obrigado pelo seu feedback!