Aprenda Q-Learning: Aprendizado TD Off-Policy | Aprendizado por Diferença Temporal

Aprender uma política ótima com SARSA pode ser desafiador. Semelhante ao controle Monte Carlo on-policy, normalmente requer uma redução gradual de $\varepsilon$ ao longo do tempo, eventualmente se aproximando de zero para passar da exploração para a exploração. Esse processo costuma ser lento e pode exigir um tempo de treinamento extenso. Uma alternativa é utilizar um método off-policy como o Q-learning.

Definição

Q-learning é um algoritmo de controle TD off-policy utilizado para estimar a função de valor de ação ótima $q_*(s, a)$ . Ele atualiza suas estimativas com base na melhor ação atual, tornando-se um algoritmo off-policy.

Regra de Atualização

Ao contrário do controle Monte Carlo off-policy, Q-learning não requer amostragem de importância para corrigir as diferenças entre as políticas de comportamento e alvo. Em vez disso, utiliza uma regra de atualização direta que se assemelha bastante ao SARSA, mas com uma diferença fundamental.

A regra de atualização do Q-learning é:

Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma \max_a Q(S_{t+1}, a) - Q(S_t, A_t)\Bigr)

A única diferença em relação ao SARSA está no valor alvo. Em vez de usar o valor da próxima ação realmente tomada, como faz o SARSA:

\gamma Q(S_{t+1}, A_{t+1})

O Q-learning utiliza o valor da melhor próxima ação possível:

\gamma \max_a Q(S_{t+1}, a)

Essa mudança sutil tem um grande impacto: permite que o Q-learning avalie ações utilizando uma estimativa da política ótima, mesmo enquanto o agente ainda está explorando. Isso é o que o torna um método off-policy — ele aprende sobre a política gananciosa, independentemente das ações escolhidas durante o treinamento.

Quando usar Q-Learning?

Q-learning é preferível quando:

Você está lidando com ambientes determinísticos, ou ambientes;
É necessário maior velocidade de convergência.

Tudo estava claro?

Obrigado pelo seu feedback!

Seção 5. Capítulo 4

Pergunte à IA

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Suggested prompts:

Can you explain the main differences between SARSA and Q-learning in more detail?

When should I choose SARSA over Q-learning?

Can you provide an example of how Q-learning is applied in practice?

Deslize para mostrar o menu