Aprenda SARSA: Aprendizado TD On-Policy | Aprendizado por Diferença Temporal

Assim como nos métodos de Monte Carlo, é possível seguir o framework de iteração generalizada de políticas (GPI) para passar da estimativa de funções de valor para o aprendizado de políticas ótimas. No entanto, esse processo introduz um desafio já conhecido: o dilema exploração-exploração. Da mesma forma, existem duas abordagens que podem ser utilizadas: on-policy e off-policy. Primeiro, será abordado o método on-policy — SARSA.

Definição

SARSA é um algoritmo de controle TD on-policy utilizado para estimar a função valor de ação $q_\pi(s, a)$ . Ele atualiza suas estimativas com base na ação realmente tomada, caracterizando-se como um algoritmo on-policy.

O acrônimo SARSA deriva dos cinco componentes principais utilizados na atualização:

S: estado atual $S_t$ ;
A: ação tomada $A_t$ ;
R: recompensa recebida $R_{t+1}$ ;
S: próximo estado $S_{t+1}$ ;
A: próxima ação $A_{t+1}$ .

Regra de Atualização

A regra de atualização é semelhante ao TD(0), apenas substituindo a função de valor de estado pela função de valor de ação:

Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma Q(S_{t+1}, A_{t+1}) - Q(S_t, A_t)\Bigr)

O $A_{t+1}$ é a ação que será realmente tomada no próximo passo, e é selecionada de acordo com a política atual. Isso significa que os efeitos da exploração são incorporados ao processo de aprendizado.

Após cada atualização da função de valor de ação, a política também é atualizada, permitindo que o agente utilize imediatamente as novas estimativas.

Pseudocódigo

Quando usar SARSA?

SARSA é preferível quando:

Você está lidando com ambientes com alta estocasticidade (por exemplo, superfícies escorregadias, transições não confiáveis);
Aceita uma convergência mais lenta em troca de um comportamento mais seguro durante o aprendizado.

Tudo estava claro?

Obrigado pelo seu feedback!

Seção 5. Capítulo 3

Pergunte à IA

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Suggested prompts:

Can you explain the difference between SARSA and Q-learning?

How does the exploration-exploitation tradeoff affect SARSA?

Can you give an example of when SARSA would be better than other methods?

Deslize para mostrar o menu