Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Iteração de Política | Programação Dinâmica
Introdução ao Aprendizado por Reforço
course content

Conteúdo do Curso

Introdução ao Aprendizado por Reforço

Introdução ao Aprendizado por Reforço

1. Teoria Central de RL
2. Problema do Bandido de Múltiplos Braços
3. Programação Dinâmica
4. Métodos de Monte Carlo
5. Aprendizado por Diferença Temporal

book
Iteração de Política

A ideia por trás da iteração de política é simples:

  1. Escolher uma π\pi e vv iniciais;
  2. Utilizar a avaliação de política para atualizar vv até que esteja consistente com π\pi;
  3. Utilizar a melhoria de política para atualizar π\pi até que seja gananciosa em relação a vv;
  4. Repetir os passos 2-3 até a convergência.

Neste método, não há atualizações parciais:

  • Durante a avaliação de política, os valores são atualizados para cada estado, até que estejam consistentes com a política atual;
  • Durante a melhoria de política, a política é tornada gananciosa em relação à função de valor.

Pseudocódigo

question mark

Com base no pseudocódigo, qual condição faz com que o loop externo da iteração de política pare?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 3. Capítulo 7

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

course content

Conteúdo do Curso

Introdução ao Aprendizado por Reforço

Introdução ao Aprendizado por Reforço

1. Teoria Central de RL
2. Problema do Bandido de Múltiplos Braços
3. Programação Dinâmica
4. Métodos de Monte Carlo
5. Aprendizado por Diferença Temporal

book
Iteração de Política

A ideia por trás da iteração de política é simples:

  1. Escolher uma π\pi e vv iniciais;
  2. Utilizar a avaliação de política para atualizar vv até que esteja consistente com π\pi;
  3. Utilizar a melhoria de política para atualizar π\pi até que seja gananciosa em relação a vv;
  4. Repetir os passos 2-3 até a convergência.

Neste método, não há atualizações parciais:

  • Durante a avaliação de política, os valores são atualizados para cada estado, até que estejam consistentes com a política atual;
  • Durante a melhoria de política, a política é tornada gananciosa em relação à função de valor.

Pseudocódigo

question mark

Com base no pseudocódigo, qual condição faz com que o loop externo da iteração de política pare?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 3. Capítulo 7
some-alt