Conteúdo do Curso
Introdução ao Aprendizado por Reforço
Introdução ao Aprendizado por Reforço
Iteração de Política Generalizada
Nos capítulos anteriores, você aprendeu sobre avaliação de política e melhoria de política. Esses processos se complementam e se combinam naturalmente em um framework conhecido como iteração generalizada de política.
Iteração generalizada de política (GPI) é um framework no qual avaliação de política e melhoria de política interagem de forma iterativa com o objetivo comum de determinar uma política ótima.
A maioria dos métodos de aprendizado por reforço pode ser descrita dentro do framework de GPI. As principais diferenças entre esses métodos decorrem das implementações específicas da avaliação de política e da melhoria de política, assim como da natureza de suas interações.
Interação Entre Dois Processos
A avaliação de política e a melhoria de política podem ser vistas como processos tanto cooperativos quanto competitivos, dependendo da perspectiva:
- Cooperativo: ambos os processos trabalham em direção a um objetivo comum—encontrar a política ótima e a função de valor. A avaliação de política estima a função de valor para uma política dada, enquanto a melhoria de política refina a política com base nessas estimativas;
- Competitivo: cada processo possui objetivos conflitantes. A avaliação de política busca estimar com precisão a função de valor para a política atual, o que frequentemente faz com que a política deixe de ser gananciosa. Por outro lado, a melhoria de política ajusta a política para ser gananciosa em relação às estimativas atuais da função de valor, normalmente tornando essas estimativas incorretas. Esse constante equilíbrio continua até que tanto a política quanto a função de valor convirjam para suas formas ótimas.
Resumo
Iteração de política generalizada é uma estrutura útil para compreender como diferentes métodos de aprendizado por reforço abordam a resolução dos MDPs. Nos próximos capítulos, você explorará como essas ideias podem ser aplicadas para criar dois métodos essenciais de DP: iteração de política e iteração de valor.
Obrigado pelo seu feedback!