Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Iteração de Política Generalizada | Programação Dinâmica
Introdução ao Aprendizado por Reforço

bookIteração de Política Generalizada

Nos capítulos anteriores, foram apresentados os conceitos de avaliação de política e melhoria de política. Esses processos se complementam e se combinam naturalmente em uma estrutura conhecida como iteração generalizada de política.

Note
Definição

Iteração generalizada de política (GPI) é uma estrutura na qual avaliação de política e melhoria de política interagem de forma iterativa com o objetivo comum de determinar uma política ótima.

A maioria dos métodos de aprendizado por reforço pode ser descrita dentro da estrutura da GPI. As principais diferenças entre esses métodos decorrem das implementações específicas da avaliação de política e da melhoria de política, bem como da natureza de suas interações.

Interação Entre Dois Processos

A avaliação de política e a melhoria de política podem ser vistas como processos tanto cooperativos quanto competitivos, dependendo da perspectiva:

  • Cooperativo: ambos os processos trabalham em direção a um objetivo comum—encontrar a política ótima e a função de valor. A avaliação de política estima a função de valor para uma política dada, enquanto a melhoria de política refina a política com base nessas estimativas;
  • Competitivo: cada processo possui objetivos conflitantes. A avaliação de política busca estimar com precisão a função de valor para a política atual, o que frequentemente faz com que a política deixe de ser gananciosa. Por outro lado, a melhoria de política ajusta a política para ser gananciosa em relação às estimativas atuais da função de valor, normalmente tornando essas estimativas incorretas. Esse constante equilíbrio continua até que tanto a política quanto a função de valor convirjam para suas formas ótimas.

Resumo

Iteração de política generalizada é uma estrutura útil para compreender como diferentes métodos de aprendizado por reforço abordam a resolução dos MDPs. Nos próximos capítulos, você explorará como essas ideias podem ser aplicadas para criar dois métodos essenciais de PD: iteração de política e iteração de valor.

question mark

Selecione os dois processos que trabalham juntos no framework de iteração de política generalizada

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 3. Capítulo 6

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Suggested prompts:

Can you explain what generalized policy iteration (GPI) is in simple terms?

What are the main differences between policy iteration and value iteration?

How do policy evaluation and policy improvement interact in practice?

Awesome!

Completion rate improved to 2.7

bookIteração de Política Generalizada

Deslize para mostrar o menu

Nos capítulos anteriores, foram apresentados os conceitos de avaliação de política e melhoria de política. Esses processos se complementam e se combinam naturalmente em uma estrutura conhecida como iteração generalizada de política.

Note
Definição

Iteração generalizada de política (GPI) é uma estrutura na qual avaliação de política e melhoria de política interagem de forma iterativa com o objetivo comum de determinar uma política ótima.

A maioria dos métodos de aprendizado por reforço pode ser descrita dentro da estrutura da GPI. As principais diferenças entre esses métodos decorrem das implementações específicas da avaliação de política e da melhoria de política, bem como da natureza de suas interações.

Interação Entre Dois Processos

A avaliação de política e a melhoria de política podem ser vistas como processos tanto cooperativos quanto competitivos, dependendo da perspectiva:

  • Cooperativo: ambos os processos trabalham em direção a um objetivo comum—encontrar a política ótima e a função de valor. A avaliação de política estima a função de valor para uma política dada, enquanto a melhoria de política refina a política com base nessas estimativas;
  • Competitivo: cada processo possui objetivos conflitantes. A avaliação de política busca estimar com precisão a função de valor para a política atual, o que frequentemente faz com que a política deixe de ser gananciosa. Por outro lado, a melhoria de política ajusta a política para ser gananciosa em relação às estimativas atuais da função de valor, normalmente tornando essas estimativas incorretas. Esse constante equilíbrio continua até que tanto a política quanto a função de valor convirjam para suas formas ótimas.

Resumo

Iteração de política generalizada é uma estrutura útil para compreender como diferentes métodos de aprendizado por reforço abordam a resolução dos MDPs. Nos próximos capítulos, você explorará como essas ideias podem ser aplicadas para criar dois métodos essenciais de PD: iteração de política e iteração de valor.

question mark

Selecione os dois processos que trabalham juntos no framework de iteração de política generalizada

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 3. Capítulo 6
some-alt