Conteúdo do Curso
Introdução ao Aprendizado por Reforço
Introdução ao Aprendizado por Reforço
Iteração de Política
A ideia por trás da iteração de política é simples:
- Escolher uma e iniciais;
- Utilizar a avaliação de política para atualizar até que esteja consistente com ;
- Utilizar a melhoria de política para atualizar até que seja gananciosa em relação a ;
- Repetir os passos 2-3 até a convergência.
Neste método, não há atualizações parciais:
- Durante a avaliação de política, os valores são atualizados para cada estado, até que estejam consistentes com a política atual;
- Durante a melhoria de política, a política é tornada gananciosa em relação à função de valor.
Pseudocódigo
Tudo estava claro?
Obrigado pelo seu feedback!
Seção 3. Capítulo 7