Conteúdo do Curso
Introdução ao Aprendizado por Reforço
Introdução ao Aprendizado por Reforço
Q-Learning: Aprendizado TD Off-Policy
Aprender uma política ótima com SARSA pode ser desafiador. Semelhante ao controle Monte Carlo on-policy, normalmente requer uma redução gradual de ao longo do tempo, eventualmente se aproximando de zero para passar da exploração para a exploração. Esse processo costuma ser lento e pode exigir um tempo de treinamento extenso. Uma alternativa é utilizar um método off-policy como o Q-learning.
Q-learning é um algoritmo de controle TD off-policy utilizado para estimar a função de valor de ação ótima . Ele atualiza suas estimativas com base na melhor ação atual, tornando-se um algoritmo off-policy.
Regra de Atualização
Ao contrário do controle Monte Carlo off-policy, Q-learning não requer amostragem de importância para corrigir diferenças entre as políticas de comportamento e alvo. Em vez disso, utiliza uma regra de atualização direta que se assemelha bastante ao SARSA, mas com uma diferença fundamental.
A regra de atualização do Q-learning é:
A única diferença em relação ao SARSA está no valor alvo. Em vez de usar o valor da próxima ação realmente tomada, como faz o SARSA:
O Q-learning utiliza o valor da melhor próxima ação possível:
Essa mudança sutil tem um grande impacto: permite que o Q-learning avalie ações utilizando uma estimativa da política ótima, mesmo enquanto o agente ainda está explorando. Isso é o que o torna um método off-policy — ele aprende sobre a política gananciosa, independentemente das ações escolhidas durante o treinamento.
Quando usar Q-Learning?
Q-learning é preferível quando:
- O ambiente é determinístico, ou ambientes;
- É necessária maior velocidade de convergência.
Obrigado pelo seu feedback!