Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Q-Learning: Aprendizado TD Off-Policy | Aprendizado por Diferença Temporal
Introdução ao Aprendizado por Reforço

bookQ-Learning: Aprendizado TD Off-Policy

Aprender uma política ótima com SARSA pode ser desafiador. Semelhante ao controle Monte Carlo on-policy, normalmente requer uma redução gradual de ε\varepsilon ao longo do tempo, eventualmente se aproximando de zero para passar da exploração para a exploração. Esse processo costuma ser lento e pode exigir um tempo de treinamento extenso. Uma alternativa é utilizar um método off-policy como o Q-learning.

Note
Definição

Q-learning é um algoritmo de controle TD off-policy utilizado para estimar a função de valor de ação ótima q(s,a)q_*(s, a). Ele atualiza suas estimativas com base na melhor ação atual, tornando-se um algoritmo off-policy.

Regra de Atualização

Ao contrário do controle Monte Carlo off-policy, Q-learning não requer amostragem de importância para corrigir diferenças entre as políticas de comportamento e alvo. Em vez disso, utiliza uma regra de atualização direta que se assemelha bastante ao SARSA, mas com uma diferença fundamental.

A regra de atualização do Q-learning é:

Q(St,At)Q(St,At)+α(Rt+1+γmaxaQ(St+1,a)Q(St,At))Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma \max_a Q(S_{t+1}, a) - Q(S_t, A_t)\Bigr)

A única diferença em relação ao SARSA está no valor alvo. Em vez de usar o valor da próxima ação realmente tomada, como faz o SARSA:

γQ(St+1,At+1)\gamma Q(S_{t+1}, A_{t+1})

O Q-learning utiliza o valor da melhor próxima ação possível:

γmaxaQ(St+1,a)\gamma \max_a Q(S_{t+1}, a)

Essa mudança sutil tem um grande impacto: permite que o Q-learning avalie ações utilizando uma estimativa da política ótima, mesmo enquanto o agente ainda está explorando. Isso é o que o torna um método off-policy — ele aprende sobre a política gananciosa, independentemente das ações escolhidas durante o treinamento.

Quando usar Q-Learning?

Q-learning é preferível quando:

  • O ambiente é determinístico, ou ambientes;
  • É necessária maior velocidade de convergência.
question mark

O que distingue o Q-learning como um algoritmo off-policy?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 5. Capítulo 4

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Awesome!

Completion rate improved to 2.7

bookQ-Learning: Aprendizado TD Off-Policy

Deslize para mostrar o menu

Aprender uma política ótima com SARSA pode ser desafiador. Semelhante ao controle Monte Carlo on-policy, normalmente requer uma redução gradual de ε\varepsilon ao longo do tempo, eventualmente se aproximando de zero para passar da exploração para a exploração. Esse processo costuma ser lento e pode exigir um tempo de treinamento extenso. Uma alternativa é utilizar um método off-policy como o Q-learning.

Note
Definição

Q-learning é um algoritmo de controle TD off-policy utilizado para estimar a função de valor de ação ótima q(s,a)q_*(s, a). Ele atualiza suas estimativas com base na melhor ação atual, tornando-se um algoritmo off-policy.

Regra de Atualização

Ao contrário do controle Monte Carlo off-policy, Q-learning não requer amostragem de importância para corrigir diferenças entre as políticas de comportamento e alvo. Em vez disso, utiliza uma regra de atualização direta que se assemelha bastante ao SARSA, mas com uma diferença fundamental.

A regra de atualização do Q-learning é:

Q(St,At)Q(St,At)+α(Rt+1+γmaxaQ(St+1,a)Q(St,At))Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma \max_a Q(S_{t+1}, a) - Q(S_t, A_t)\Bigr)

A única diferença em relação ao SARSA está no valor alvo. Em vez de usar o valor da próxima ação realmente tomada, como faz o SARSA:

γQ(St+1,At+1)\gamma Q(S_{t+1}, A_{t+1})

O Q-learning utiliza o valor da melhor próxima ação possível:

γmaxaQ(St+1,a)\gamma \max_a Q(S_{t+1}, a)

Essa mudança sutil tem um grande impacto: permite que o Q-learning avalie ações utilizando uma estimativa da política ótima, mesmo enquanto o agente ainda está explorando. Isso é o que o torna um método off-policy — ele aprende sobre a política gananciosa, independentemente das ações escolhidas durante o treinamento.

Quando usar Q-Learning?

Q-learning é preferível quando:

  • O ambiente é determinístico, ou ambientes;
  • É necessária maior velocidade de convergência.
question mark

O que distingue o Q-learning como um algoritmo off-policy?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 5. Capítulo 4
some-alt