SARSA: Aprendizado TD On-Policy
Assim como nos métodos de Monte Carlo, podemos seguir o framework de iteração generalizada de política (GPI) para passar da estimativa de funções de valor para o aprendizado de políticas ótimas. No entanto, esse processo introduz um desafio já conhecido: o dilema exploração-exploração. Da mesma forma, existem duas abordagens que podemos utilizar: on-policy e off-policy. Primeiro, vamos abordar o método on-policy — SARSA.
SARSA é um algoritmo de controle TD on-policy utilizado para estimar a função valor de ação qπ(s,a). Ele atualiza suas estimativas com base na ação realmente executada, caracterizando-se como um algoritmo on-policy.
O acrônimo SARSA vem dos cinco componentes principais usados na atualização:
- S: estado atual St;
- A: ação executada At;
- R: recompensa recebida Rt+1;
- S: próximo estado St+1;
- A: próxima ação At+1.
Regra de Atualização
A regra de atualização é semelhante ao TD(0), apenas substituindo a função de valor de estado pela função de valor de ação:
Q(St,At)←Q(St,At)+α(Rt+1+γQ(St+1,At+1)−Q(St,At))O At+1 é a ação que será realmente tomada no próximo passo, e é selecionada de acordo com a política atual. Isso significa que os efeitos da exploração são incorporados ao processo de aprendizado.
Após cada atualização da função de valor de ação, a política também é atualizada, permitindo que o agente utilize imediatamente as novas estimativas.
Pseudocódigo
Quando usar SARSA?
SARSA é preferível quando:
- Você está lidando com ambientes com alta estocasticidade (por exemplo, superfícies escorregadias, transições não confiáveis);
- É aceitável uma convergência mais lenta em troca de um comportamento mais seguro durante o aprendizado.
Obrigado pelo seu feedback!
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo
Awesome!
Completion rate improved to 2.7
SARSA: Aprendizado TD On-Policy
Deslize para mostrar o menu
Assim como nos métodos de Monte Carlo, podemos seguir o framework de iteração generalizada de política (GPI) para passar da estimativa de funções de valor para o aprendizado de políticas ótimas. No entanto, esse processo introduz um desafio já conhecido: o dilema exploração-exploração. Da mesma forma, existem duas abordagens que podemos utilizar: on-policy e off-policy. Primeiro, vamos abordar o método on-policy — SARSA.
SARSA é um algoritmo de controle TD on-policy utilizado para estimar a função valor de ação qπ(s,a). Ele atualiza suas estimativas com base na ação realmente executada, caracterizando-se como um algoritmo on-policy.
O acrônimo SARSA vem dos cinco componentes principais usados na atualização:
- S: estado atual St;
- A: ação executada At;
- R: recompensa recebida Rt+1;
- S: próximo estado St+1;
- A: próxima ação At+1.
Regra de Atualização
A regra de atualização é semelhante ao TD(0), apenas substituindo a função de valor de estado pela função de valor de ação:
Q(St,At)←Q(St,At)+α(Rt+1+γQ(St+1,At+1)−Q(St,At))O At+1 é a ação que será realmente tomada no próximo passo, e é selecionada de acordo com a política atual. Isso significa que os efeitos da exploração são incorporados ao processo de aprendizado.
Após cada atualização da função de valor de ação, a política também é atualizada, permitindo que o agente utilize imediatamente as novas estimativas.
Pseudocódigo
Quando usar SARSA?
SARSA é preferível quando:
- Você está lidando com ambientes com alta estocasticidade (por exemplo, superfícies escorregadias, transições não confiáveis);
- É aceitável uma convergência mais lenta em troca de um comportamento mais seguro durante o aprendizado.
Obrigado pelo seu feedback!