Conteúdo do Curso
Introdução ao Aprendizado por Reforço
Introdução ao Aprendizado por Reforço
Melhoria de Política
Melhoria de política é um processo de aprimoramento da política com base nas estimativas atuais da função de valor.
Assim como na avaliação de política, a melhoria de política pode ser realizada tanto com a função de valor de estado quanto com a função de valor de ação. Porém, para métodos de Programação Dinâmica, será utilizada a função de valor de estado.
Agora que é possível estimar a função de valor de estado para qualquer política, um próximo passo natural é explorar se existem políticas melhores do que a atual. Uma forma de fazer isso é considerar tomar uma ação diferente em um estado , e seguir a política atual em seguida. Se isso parece familiar, é porque é semelhante à forma como definimos a função de valor de ação:
Se esse novo valor for maior que o valor original do estado , isso indica que tomar a ação no estado e então continuar com a política leva a resultados melhores do que seguir estritamente a política . Como os estados são independentes, é ótimo sempre selecionar a ação sempre que o estado for encontrado. Portanto, podemos construir uma política aprimorada , idêntica à , exceto pelo fato de selecionar a ação no estado , o que seria superior à política original .
Teorema de Melhoria de Política
O raciocínio descrito acima pode ser generalizado como o teorema de melhoria de política:
A demonstração deste teorema é relativamente simples e pode ser realizada por meio de uma substituição repetida:
Estratégia de Melhoria
Embora atualizar as ações para certos estados possa levar a melhorias, é mais eficaz atualizar as ações para todos os estados simultaneamente. Especificamente, para cada estado , selecionar a ação que maximiza o valor da ação :
onde (abreviação de argumento do máximo) é um operador que retorna o valor da variável que maximiza uma determinada função.
A política gananciosa resultante, denotada por , satisfaz as condições do teorema de melhoria de política por construção, garantindo que seja pelo menos tão boa quanto a política original , e tipicamente melhor.
Se for tão boa quanto, mas não melhor que , então ambas e são políticas ótimas, pois suas funções de valor são iguais e satisfazem a equação de otimalidade de Bellman:
Obrigado pelo seu feedback!