Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Iteração de Política Generalizada | Programação Dinâmica
Introdução ao Aprendizado por Reforço

bookIteração de Política Generalizada

Nos capítulos anteriores, você aprendeu sobre avaliação de política e melhoria de política. Esses processos se complementam e se combinam naturalmente em uma estrutura conhecida como iteração generalizada de política.

Note
Definição

Iteração generalizada de política (GPI) é uma estrutura na qual avaliação de política e melhoria de política interagem de forma iterativa com o objetivo comum de determinar uma política ótima.

A maioria dos métodos de aprendizado por reforço pode ser descrita dentro da estrutura de GPI. As principais diferenças entre esses métodos decorrem das implementações específicas da avaliação de política e da melhoria de política, assim como da natureza de suas interações.

Interação Entre Dois Processos

A avaliação de política e a melhoria de política podem ser vistas tanto como processos cooperativos quanto competitivos, dependendo da perspectiva:

  • Cooperativo: ambos os processos trabalham em direção a um objetivo comum—encontrar a política ótima e a função de valor. A avaliação de política estima a função de valor para uma política dada, enquanto a melhoria de política refina a política com base nessas estimativas;
  • Competitivo: cada processo possui objetivos conflitantes. A avaliação de política busca estimar com precisão a função de valor para a política atual, o que frequentemente faz com que a política deixe de ser gananciosa. Por outro lado, a melhoria de política ajusta a política para ser gananciosa em relação às estimativas atuais da função de valor, normalmente tornando essas estimativas incorretas. Esse constante jogo de forças continua até que tanto a política quanto a função de valor convirjam para suas formas ótimas.

Resumo

Iteração de política generalizada é uma estrutura útil para compreender como diferentes métodos de aprendizado por reforço abordam a resolução dos MDPs. Nos próximos capítulos, você explorará como essas ideias podem ser aplicadas para criar dois métodos essenciais de DP: iteração de política e iteração de valor.

question mark

Selecione os dois processos que trabalham juntos no framework de iteração de política generalizada

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 3. Capítulo 6

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Suggested prompts:

Can you explain what generalized policy iteration (GPI) is in simple terms?

What are the main differences between policy iteration and value iteration?

How do policy evaluation and policy improvement interact in practice?

Awesome!

Completion rate improved to 2.7

bookIteração de Política Generalizada

Deslize para mostrar o menu

Nos capítulos anteriores, você aprendeu sobre avaliação de política e melhoria de política. Esses processos se complementam e se combinam naturalmente em uma estrutura conhecida como iteração generalizada de política.

Note
Definição

Iteração generalizada de política (GPI) é uma estrutura na qual avaliação de política e melhoria de política interagem de forma iterativa com o objetivo comum de determinar uma política ótima.

A maioria dos métodos de aprendizado por reforço pode ser descrita dentro da estrutura de GPI. As principais diferenças entre esses métodos decorrem das implementações específicas da avaliação de política e da melhoria de política, assim como da natureza de suas interações.

Interação Entre Dois Processos

A avaliação de política e a melhoria de política podem ser vistas tanto como processos cooperativos quanto competitivos, dependendo da perspectiva:

  • Cooperativo: ambos os processos trabalham em direção a um objetivo comum—encontrar a política ótima e a função de valor. A avaliação de política estima a função de valor para uma política dada, enquanto a melhoria de política refina a política com base nessas estimativas;
  • Competitivo: cada processo possui objetivos conflitantes. A avaliação de política busca estimar com precisão a função de valor para a política atual, o que frequentemente faz com que a política deixe de ser gananciosa. Por outro lado, a melhoria de política ajusta a política para ser gananciosa em relação às estimativas atuais da função de valor, normalmente tornando essas estimativas incorretas. Esse constante jogo de forças continua até que tanto a política quanto a função de valor convirjam para suas formas ótimas.

Resumo

Iteração de política generalizada é uma estrutura útil para compreender como diferentes métodos de aprendizado por reforço abordam a resolução dos MDPs. Nos próximos capítulos, você explorará como essas ideias podem ser aplicadas para criar dois métodos essenciais de DP: iteração de política e iteração de valor.

question mark

Selecione os dois processos que trabalham juntos no framework de iteração de política generalizada

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 3. Capítulo 6
some-alt