Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda SARSA: Aprendizado TD On-Policy | Aprendizado por Diferença Temporal
Introdução ao Aprendizado por Reforço
course content

Conteúdo do Curso

Introdução ao Aprendizado por Reforço

Introdução ao Aprendizado por Reforço

1. Teoria Central de RL
2. Problema do Bandido de Múltiplos Braços
3. Programação Dinâmica
4. Métodos de Monte Carlo
5. Aprendizado por Diferença Temporal

book
SARSA: Aprendizado TD On-Policy

Assim como nos métodos de Monte Carlo, podemos seguir o framework de iteração generalizada de política (GPI) para passar da estimativa de funções de valor para o aprendizado de políticas ótimas. No entanto, esse processo introduz um desafio já conhecido: o dilema exploração-exploração. Da mesma forma, existem duas abordagens que podemos utilizar: on-policy e off-policy. Primeiro, vamos abordar o método on-policySARSA.

Note
Definição

SARSA é um algoritmo de controle TD on-policy utilizado para estimar a função valor de ação qπ(s,a)q_\pi(s, a). Ele atualiza suas estimativas com base na ação realmente executada, caracterizando-se como um algoritmo on-policy.

O acrônimo SARSA vem dos cinco componentes principais usados na atualização:

  • S: estado atual StS_t;
  • A: ação executada AtA_t;
  • R: recompensa recebida Rt+1R_{t+1};
  • S: próximo estado St+1S_{t+1};
  • A: próxima ação At+1A_{t+1}.

Regra de Atualização

A regra de atualização é semelhante ao TD(0), apenas substituindo a função de valor de estado pela função de valor de ação:

Q(St,At)Q(St,At)+α(Rt+1+γQ(St+1,At+1)Q(St,At))Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma Q(S_{t+1}, A_{t+1}) - Q(S_t, A_t)\Bigr)

O At+1A_{t+1} é a ação que será realmente tomada no próximo passo, e é selecionada de acordo com a política atual. Isso significa que os efeitos da exploração são incorporados ao processo de aprendizado.

Após cada atualização da função de valor de ação, a política também é atualizada, permitindo que o agente utilize imediatamente as novas estimativas.

Pseudocódigo

Quando usar SARSA?

SARSA é preferível quando:

  • Você está lidando com ambientes com alta estocasticidade (por exemplo, superfícies escorregadias, transições não confiáveis);
  • É aceitável uma convergência mais lenta em troca de um comportamento mais seguro durante o aprendizado.
question mark

Em qual cenário o SARSA é particularmente preferível?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 5. Capítulo 3

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

course content

Conteúdo do Curso

Introdução ao Aprendizado por Reforço

Introdução ao Aprendizado por Reforço

1. Teoria Central de RL
2. Problema do Bandido de Múltiplos Braços
3. Programação Dinâmica
4. Métodos de Monte Carlo
5. Aprendizado por Diferença Temporal

book
SARSA: Aprendizado TD On-Policy

Assim como nos métodos de Monte Carlo, podemos seguir o framework de iteração generalizada de política (GPI) para passar da estimativa de funções de valor para o aprendizado de políticas ótimas. No entanto, esse processo introduz um desafio já conhecido: o dilema exploração-exploração. Da mesma forma, existem duas abordagens que podemos utilizar: on-policy e off-policy. Primeiro, vamos abordar o método on-policySARSA.

Note
Definição

SARSA é um algoritmo de controle TD on-policy utilizado para estimar a função valor de ação qπ(s,a)q_\pi(s, a). Ele atualiza suas estimativas com base na ação realmente executada, caracterizando-se como um algoritmo on-policy.

O acrônimo SARSA vem dos cinco componentes principais usados na atualização:

  • S: estado atual StS_t;
  • A: ação executada AtA_t;
  • R: recompensa recebida Rt+1R_{t+1};
  • S: próximo estado St+1S_{t+1};
  • A: próxima ação At+1A_{t+1}.

Regra de Atualização

A regra de atualização é semelhante ao TD(0), apenas substituindo a função de valor de estado pela função de valor de ação:

Q(St,At)Q(St,At)+α(Rt+1+γQ(St+1,At+1)Q(St,At))Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma Q(S_{t+1}, A_{t+1}) - Q(S_t, A_t)\Bigr)

O At+1A_{t+1} é a ação que será realmente tomada no próximo passo, e é selecionada de acordo com a política atual. Isso significa que os efeitos da exploração são incorporados ao processo de aprendizado.

Após cada atualização da função de valor de ação, a política também é atualizada, permitindo que o agente utilize imediatamente as novas estimativas.

Pseudocódigo

Quando usar SARSA?

SARSA é preferível quando:

  • Você está lidando com ambientes com alta estocasticidade (por exemplo, superfícies escorregadias, transições não confiáveis);
  • É aceitável uma convergência mais lenta em troca de um comportamento mais seguro durante o aprendizado.
question mark

Em qual cenário o SARSA é particularmente preferível?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 5. Capítulo 3
some-alt