Aprenda Iteração de Política Generalizada

Nos capítulos anteriores, você aprendeu sobre avaliação de política e melhoria de política. Esses processos se complementam e se combinam naturalmente em uma estrutura conhecida como iteração generalizada de política.

Definição

Iteração generalizada de política (GPI) é uma estrutura na qual avaliação de política e melhoria de política interagem de forma iterativa com o objetivo comum de determinar uma política ótima.

A maioria dos métodos de aprendizado por reforço pode ser descrita dentro da estrutura de GPI. As principais diferenças entre esses métodos decorrem das implementações específicas da avaliação de política e da melhoria de política, assim como da natureza de suas interações.

Interação Entre Dois Processos

A avaliação de política e a melhoria de política podem ser vistas tanto como processos cooperativos quanto competitivos, dependendo da perspectiva:

Cooperativo: ambos os processos trabalham em direção a um objetivo comum—encontrar a política ótima e a função de valor. A avaliação de política estima a função de valor para uma política dada, enquanto a melhoria de política refina a política com base nessas estimativas;
Competitivo: cada processo possui objetivos conflitantes. A avaliação de política busca estimar com precisão a função de valor para a política atual, o que frequentemente faz com que a política deixe de ser gananciosa. Por outro lado, a melhoria de política ajusta a política para ser gananciosa em relação às estimativas atuais da função de valor, normalmente tornando essas estimativas incorretas. Esse constante jogo de forças continua até que tanto a política quanto a função de valor convirjam para suas formas ótimas.

Resumo

Iteração de política generalizada é uma estrutura útil para compreender como diferentes métodos de aprendizado por reforço abordam a resolução dos MDPs. Nos próximos capítulos, você explorará como essas ideias podem ser aplicadas para criar dois métodos essenciais de DP: iteração de política e iteração de valor.

Tudo estava claro?

Obrigado pelo seu feedback!

Seção 3. Capítulo 6

Pergunte à IA

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Deslize para mostrar o menu