Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Iteração de Política | Programação Dinâmica
Introdução ao Aprendizado por Reforço

bookIteração de Política

A ideia por trás da iteração de política é simples:

  1. Escolher uma π\pi e vv iniciais;
  2. Utilizar a avaliação de política para atualizar vv até que esteja consistente com π\pi;
  3. Utilizar a melhoria de política para atualizar π\pi até que seja gananciosa em relação a vv;
  4. Repetir os passos 2-3 até a convergência.

Neste método, não há atualizações parciais:

  • Durante a avaliação de política, os valores são atualizados para cada estado, até que estejam consistentes com a política atual;
  • Durante a melhoria de política, a política é tornada gananciosa em relação à função de valor.

Pseudocódigo

question mark

Com base no pseudocódigo, qual condição faz com que o loop externo da iteração de política pare?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 3. Capítulo 7

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Awesome!

Completion rate improved to 2.7

bookIteração de Política

Deslize para mostrar o menu

A ideia por trás da iteração de política é simples:

  1. Escolher uma π\pi e vv iniciais;
  2. Utilizar a avaliação de política para atualizar vv até que esteja consistente com π\pi;
  3. Utilizar a melhoria de política para atualizar π\pi até que seja gananciosa em relação a vv;
  4. Repetir os passos 2-3 até a convergência.

Neste método, não há atualizações parciais:

  • Durante a avaliação de política, os valores são atualizados para cada estado, até que estejam consistentes com a política atual;
  • Durante a melhoria de política, a política é tornada gananciosa em relação à função de valor.

Pseudocódigo

question mark

Com base no pseudocódigo, qual condição faz com que o loop externo da iteração de política pare?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 3. Capítulo 7
some-alt