Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda SARSA: Aprendizado TD On-Policy | Aprendizado por Diferença Temporal
Introdução ao Aprendizado por Reforço

bookSARSA: Aprendizado TD On-Policy

Assim como nos métodos de Monte Carlo, podemos seguir o framework de iteração generalizada de política (GPI) para passar da estimativa de funções de valor para o aprendizado de políticas ótimas. No entanto, esse processo introduz um desafio já conhecido: o dilema exploração-exploração. Da mesma forma, existem duas abordagens que podemos utilizar: on-policy e off-policy. Primeiro, vamos abordar o método on-policySARSA.

Note
Definição

SARSA é um algoritmo de controle TD on-policy utilizado para estimar a função valor de ação qπ(s,a)q_\pi(s, a). Ele atualiza suas estimativas com base na ação realmente executada, caracterizando-se como um algoritmo on-policy.

O acrônimo SARSA vem dos cinco componentes principais usados na atualização:

  • S: estado atual StS_t;
  • A: ação executada AtA_t;
  • R: recompensa recebida Rt+1R_{t+1};
  • S: próximo estado St+1S_{t+1};
  • A: próxima ação At+1A_{t+1}.

Regra de Atualização

A regra de atualização é semelhante ao TD(0), apenas substituindo a função de valor de estado pela função de valor de ação:

Q(St,At)Q(St,At)+α(Rt+1+γQ(St+1,At+1)Q(St,At))Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma Q(S_{t+1}, A_{t+1}) - Q(S_t, A_t)\Bigr)

O At+1A_{t+1} é a ação que será realmente tomada no próximo passo, e é selecionada de acordo com a política atual. Isso significa que os efeitos da exploração são incorporados ao processo de aprendizado.

Após cada atualização da função de valor de ação, a política também é atualizada, permitindo que o agente utilize imediatamente as novas estimativas.

Pseudocódigo

Quando usar SARSA?

SARSA é preferível quando:

  • Você está lidando com ambientes com alta estocasticidade (por exemplo, superfícies escorregadias, transições não confiáveis);
  • É aceitável uma convergência mais lenta em troca de um comportamento mais seguro durante o aprendizado.
question mark

Em qual cenário o SARSA é particularmente preferível?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 5. Capítulo 3

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Awesome!

Completion rate improved to 2.7

bookSARSA: Aprendizado TD On-Policy

Deslize para mostrar o menu

Assim como nos métodos de Monte Carlo, podemos seguir o framework de iteração generalizada de política (GPI) para passar da estimativa de funções de valor para o aprendizado de políticas ótimas. No entanto, esse processo introduz um desafio já conhecido: o dilema exploração-exploração. Da mesma forma, existem duas abordagens que podemos utilizar: on-policy e off-policy. Primeiro, vamos abordar o método on-policySARSA.

Note
Definição

SARSA é um algoritmo de controle TD on-policy utilizado para estimar a função valor de ação qπ(s,a)q_\pi(s, a). Ele atualiza suas estimativas com base na ação realmente executada, caracterizando-se como um algoritmo on-policy.

O acrônimo SARSA vem dos cinco componentes principais usados na atualização:

  • S: estado atual StS_t;
  • A: ação executada AtA_t;
  • R: recompensa recebida Rt+1R_{t+1};
  • S: próximo estado St+1S_{t+1};
  • A: próxima ação At+1A_{t+1}.

Regra de Atualização

A regra de atualização é semelhante ao TD(0), apenas substituindo a função de valor de estado pela função de valor de ação:

Q(St,At)Q(St,At)+α(Rt+1+γQ(St+1,At+1)Q(St,At))Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma Q(S_{t+1}, A_{t+1}) - Q(S_t, A_t)\Bigr)

O At+1A_{t+1} é a ação que será realmente tomada no próximo passo, e é selecionada de acordo com a política atual. Isso significa que os efeitos da exploração são incorporados ao processo de aprendizado.

Após cada atualização da função de valor de ação, a política também é atualizada, permitindo que o agente utilize imediatamente as novas estimativas.

Pseudocódigo

Quando usar SARSA?

SARSA é preferível quando:

  • Você está lidando com ambientes com alta estocasticidade (por exemplo, superfícies escorregadias, transições não confiáveis);
  • É aceitável uma convergência mais lenta em troca de um comportamento mais seguro durante o aprendizado.
question mark

Em qual cenário o SARSA é particularmente preferível?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 5. Capítulo 3
some-alt