Iteração de Política
A ideia por trás da iteração de política é simples:
- Escolher uma π e v iniciais;
- Utilizar a avaliação de política para atualizar v até que esteja consistente com π;
- Utilizar a melhoria de política para atualizar π até que seja gananciosa em relação a v;
- Repetir os passos 2-3 até a convergência.
Neste método, não há atualizações parciais:
- Durante a avaliação de política, os valores são atualizados para cada estado, até que estejam consistentes com a política atual;
- Durante a melhoria de política, a política é tornada gananciosa em relação à função de valor.
Pseudocódigo
Tudo estava claro?
Obrigado pelo seu feedback!
Seção 3. Capítulo 7
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo
Awesome!
Completion rate improved to 2.7
Iteração de Política
Deslize para mostrar o menu
A ideia por trás da iteração de política é simples:
- Escolher uma π e v iniciais;
- Utilizar a avaliação de política para atualizar v até que esteja consistente com π;
- Utilizar a melhoria de política para atualizar π até que seja gananciosa em relação a v;
- Repetir os passos 2-3 até a convergência.
Neste método, não há atualizações parciais:
- Durante a avaliação de política, os valores são atualizados para cada estado, até que estejam consistentes com a política atual;
- Durante a melhoria de política, a política é tornada gananciosa em relação à função de valor.
Pseudocódigo
Tudo estava claro?
Obrigado pelo seu feedback!
Seção 3. Capítulo 7