Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Q-Learning: Aprendizado TD Off-Policy | Aprendizado por Diferença Temporal
Introdução ao Aprendizado por Reforço
course content

Conteúdo do Curso

Introdução ao Aprendizado por Reforço

Introdução ao Aprendizado por Reforço

1. Teoria Central de RL
2. Problema do Bandido de Múltiplos Braços
3. Programação Dinâmica
4. Métodos de Monte Carlo
5. Aprendizado por Diferença Temporal

book
Q-Learning: Aprendizado TD Off-Policy

Aprender uma política ótima com SARSA pode ser desafiador. Semelhante ao controle Monte Carlo on-policy, normalmente requer uma redução gradual de ε\varepsilon ao longo do tempo, eventualmente se aproximando de zero para passar da exploração para a exploração. Esse processo costuma ser lento e pode exigir um tempo de treinamento extenso. Uma alternativa é utilizar um método off-policy como o Q-learning.

Note
Definição

Q-learning é um algoritmo de controle TD off-policy utilizado para estimar a função de valor de ação ótima q(s,a)q_*(s, a). Ele atualiza suas estimativas com base na melhor ação atual, tornando-se um algoritmo off-policy.

Regra de Atualização

Ao contrário do controle Monte Carlo off-policy, Q-learning não requer amostragem de importância para corrigir diferenças entre as políticas de comportamento e alvo. Em vez disso, utiliza uma regra de atualização direta que se assemelha bastante ao SARSA, mas com uma diferença fundamental.

A regra de atualização do Q-learning é:

Q(St,At)Q(St,At)+α(Rt+1+γmaxaQ(St+1,a)Q(St,At))Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma \max_a Q(S_{t+1}, a) - Q(S_t, A_t)\Bigr)

A única diferença em relação ao SARSA está no valor alvo. Em vez de usar o valor da próxima ação realmente tomada, como faz o SARSA:

γQ(St+1,At+1)\gamma Q(S_{t+1}, A_{t+1})

O Q-learning utiliza o valor da melhor próxima ação possível:

γmaxaQ(St+1,a)\gamma \max_a Q(S_{t+1}, a)

Essa mudança sutil tem um grande impacto: permite que o Q-learning avalie ações utilizando uma estimativa da política ótima, mesmo enquanto o agente ainda está explorando. Isso é o que o torna um método off-policy — ele aprende sobre a política gananciosa, independentemente das ações escolhidas durante o treinamento.

Quando usar Q-Learning?

Q-learning é preferível quando:

  • O ambiente é determinístico, ou ambientes;
  • É necessária maior velocidade de convergência.
question mark

O que distingue o Q-learning como um algoritmo off-policy?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 5. Capítulo 4

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

course content

Conteúdo do Curso

Introdução ao Aprendizado por Reforço

Introdução ao Aprendizado por Reforço

1. Teoria Central de RL
2. Problema do Bandido de Múltiplos Braços
3. Programação Dinâmica
4. Métodos de Monte Carlo
5. Aprendizado por Diferença Temporal

book
Q-Learning: Aprendizado TD Off-Policy

Aprender uma política ótima com SARSA pode ser desafiador. Semelhante ao controle Monte Carlo on-policy, normalmente requer uma redução gradual de ε\varepsilon ao longo do tempo, eventualmente se aproximando de zero para passar da exploração para a exploração. Esse processo costuma ser lento e pode exigir um tempo de treinamento extenso. Uma alternativa é utilizar um método off-policy como o Q-learning.

Note
Definição

Q-learning é um algoritmo de controle TD off-policy utilizado para estimar a função de valor de ação ótima q(s,a)q_*(s, a). Ele atualiza suas estimativas com base na melhor ação atual, tornando-se um algoritmo off-policy.

Regra de Atualização

Ao contrário do controle Monte Carlo off-policy, Q-learning não requer amostragem de importância para corrigir diferenças entre as políticas de comportamento e alvo. Em vez disso, utiliza uma regra de atualização direta que se assemelha bastante ao SARSA, mas com uma diferença fundamental.

A regra de atualização do Q-learning é:

Q(St,At)Q(St,At)+α(Rt+1+γmaxaQ(St+1,a)Q(St,At))Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma \max_a Q(S_{t+1}, a) - Q(S_t, A_t)\Bigr)

A única diferença em relação ao SARSA está no valor alvo. Em vez de usar o valor da próxima ação realmente tomada, como faz o SARSA:

γQ(St+1,At+1)\gamma Q(S_{t+1}, A_{t+1})

O Q-learning utiliza o valor da melhor próxima ação possível:

γmaxaQ(St+1,a)\gamma \max_a Q(S_{t+1}, a)

Essa mudança sutil tem um grande impacto: permite que o Q-learning avalie ações utilizando uma estimativa da política ótima, mesmo enquanto o agente ainda está explorando. Isso é o que o torna um método off-policy — ele aprende sobre a política gananciosa, independentemente das ações escolhidas durante o treinamento.

Quando usar Q-Learning?

Q-learning é preferível quando:

  • O ambiente é determinístico, ou ambientes;
  • É necessária maior velocidade de convergência.
question mark

O que distingue o Q-learning como um algoritmo off-policy?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 5. Capítulo 4
some-alt