Iteração de Política
A ideia por trás da iteração de política é simples:
- Escolher uma π e v iniciais;
- Utilizar a avaliação de política para atualizar v até que esteja consistente com π;
- Utilizar a melhoria de política para atualizar π até que seja gananciosa em relação a v;
- Repetir os passos 2-3 até a convergência.
Neste método, não há atualizações parciais:
- Durante a avaliação de política, os valores são atualizados para cada estado, até que estejam consistentes com a política atual;
- Durante a melhoria de política, a política é tornada gananciosa em relação à função de valor.
Pseudocódigo
Tudo estava claro?
Obrigado pelo seu feedback!
Seção 3. Capítulo 7
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo
Suggested prompts:
Can you explain what policy evaluation and policy improvement mean in this context?
How does policy iteration differ from value iteration?
Can you walk me through the pseudocode step by step?
Awesome!
Completion rate improved to 2.7
Iteração de Política
Deslize para mostrar o menu
A ideia por trás da iteração de política é simples:
- Escolher uma π e v iniciais;
- Utilizar a avaliação de política para atualizar v até que esteja consistente com π;
- Utilizar a melhoria de política para atualizar π até que seja gananciosa em relação a v;
- Repetir os passos 2-3 até a convergência.
Neste método, não há atualizações parciais:
- Durante a avaliação de política, os valores são atualizados para cada estado, até que estejam consistentes com a política atual;
- Durante a melhoria de política, a política é tornada gananciosa em relação à função de valor.
Pseudocódigo
Tudo estava claro?
Obrigado pelo seu feedback!
Seção 3. Capítulo 7