Q-Learning: Aprendizado TD Off-Policy
Aprender uma política ótima com SARSA pode ser desafiador. Semelhante ao controle Monte Carlo on-policy, normalmente requer uma redução gradual de ε ao longo do tempo, eventualmente se aproximando de zero para passar da exploração para a exploração. Esse processo costuma ser lento e pode exigir um tempo de treinamento extenso. Uma alternativa é utilizar um método off-policy como o Q-learning.
Q-learning é um algoritmo de controle TD off-policy utilizado para estimar a função de valor de ação ótima q∗(s,a). Ele atualiza suas estimativas com base na melhor ação atual, tornando-se um algoritmo off-policy.
Regra de Atualização
Ao contrário do controle Monte Carlo off-policy, Q-learning não requer amostragem de importância para corrigir diferenças entre as políticas de comportamento e alvo. Em vez disso, utiliza uma regra de atualização direta que se assemelha bastante ao SARSA, mas com uma diferença fundamental.
A regra de atualização do Q-learning é:
Q(St,At)←Q(St,At)+α(Rt+1+γamaxQ(St+1,a)−Q(St,At))A única diferença em relação ao SARSA está no valor alvo. Em vez de usar o valor da próxima ação realmente tomada, como faz o SARSA:
γQ(St+1,At+1)O Q-learning utiliza o valor da melhor próxima ação possível:
γamaxQ(St+1,a)Essa mudança sutil tem um grande impacto: permite que o Q-learning avalie ações utilizando uma estimativa da política ótima, mesmo enquanto o agente ainda está explorando. Isso é o que o torna um método off-policy — ele aprende sobre a política gananciosa, independentemente das ações escolhidas durante o treinamento.
Quando usar Q-Learning?
Q-learning é preferível quando:
- O ambiente é determinístico, ou ambientes;
- É necessária maior velocidade de convergência.
Obrigado pelo seu feedback!
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo
Awesome!
Completion rate improved to 2.7
Q-Learning: Aprendizado TD Off-Policy
Deslize para mostrar o menu
Aprender uma política ótima com SARSA pode ser desafiador. Semelhante ao controle Monte Carlo on-policy, normalmente requer uma redução gradual de ε ao longo do tempo, eventualmente se aproximando de zero para passar da exploração para a exploração. Esse processo costuma ser lento e pode exigir um tempo de treinamento extenso. Uma alternativa é utilizar um método off-policy como o Q-learning.
Q-learning é um algoritmo de controle TD off-policy utilizado para estimar a função de valor de ação ótima q∗(s,a). Ele atualiza suas estimativas com base na melhor ação atual, tornando-se um algoritmo off-policy.
Regra de Atualização
Ao contrário do controle Monte Carlo off-policy, Q-learning não requer amostragem de importância para corrigir diferenças entre as políticas de comportamento e alvo. Em vez disso, utiliza uma regra de atualização direta que se assemelha bastante ao SARSA, mas com uma diferença fundamental.
A regra de atualização do Q-learning é:
Q(St,At)←Q(St,At)+α(Rt+1+γamaxQ(St+1,a)−Q(St,At))A única diferença em relação ao SARSA está no valor alvo. Em vez de usar o valor da próxima ação realmente tomada, como faz o SARSA:
γQ(St+1,At+1)O Q-learning utiliza o valor da melhor próxima ação possível:
γamaxQ(St+1,a)Essa mudança sutil tem um grande impacto: permite que o Q-learning avalie ações utilizando uma estimativa da política ótima, mesmo enquanto o agente ainda está explorando. Isso é o que o torna um método off-policy — ele aprende sobre a política gananciosa, independentemente das ações escolhidas durante o treinamento.
Quando usar Q-Learning?
Q-learning é preferível quando:
- O ambiente é determinístico, ou ambientes;
- É necessária maior velocidade de convergência.
Obrigado pelo seu feedback!