Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Iteração de Política Generalizada | Programação Dinâmica
Introdução ao Aprendizado por Reforço

bookIteração de Política Generalizada

Nos capítulos anteriores, você aprendeu sobre avaliação de política e melhoria de política. Esses processos se complementam e se combinam naturalmente em um framework conhecido como iteração generalizada de política.

Note
Definição

Iteração generalizada de política (GPI) é um framework no qual avaliação de política e melhoria de política interagem de forma iterativa com o objetivo comum de determinar uma política ótima.

A maioria dos métodos de aprendizado por reforço pode ser descrita dentro do framework de GPI. As principais diferenças entre esses métodos decorrem das implementações específicas da avaliação de política e da melhoria de política, assim como da natureza de suas interações.

Interação Entre Dois Processos

A avaliação de política e a melhoria de política podem ser vistas como processos tanto cooperativos quanto competitivos, dependendo da perspectiva:

  • Cooperativo: ambos os processos trabalham em direção a um objetivo comum—encontrar a política ótima e a função de valor. A avaliação de política estima a função de valor para uma política dada, enquanto a melhoria de política refina a política com base nessas estimativas;
  • Competitivo: cada processo possui objetivos conflitantes. A avaliação de política busca estimar com precisão a função de valor para a política atual, o que frequentemente faz com que a política deixe de ser gananciosa. Por outro lado, a melhoria de política ajusta a política para ser gananciosa em relação às estimativas atuais da função de valor, normalmente tornando essas estimativas incorretas. Esse constante equilíbrio continua até que tanto a política quanto a função de valor convirjam para suas formas ótimas.

Resumo

Iteração de política generalizada é uma estrutura útil para compreender como diferentes métodos de aprendizado por reforço abordam a resolução dos MDPs. Nos próximos capítulos, você explorará como essas ideias podem ser aplicadas para criar dois métodos essenciais de DP: iteração de política e iteração de valor.

question mark

Selecione os dois processos que trabalham juntos no framework de iteração de política generalizada

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 3. Capítulo 6

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Awesome!

Completion rate improved to 2.7

bookIteração de Política Generalizada

Deslize para mostrar o menu

Nos capítulos anteriores, você aprendeu sobre avaliação de política e melhoria de política. Esses processos se complementam e se combinam naturalmente em um framework conhecido como iteração generalizada de política.

Note
Definição

Iteração generalizada de política (GPI) é um framework no qual avaliação de política e melhoria de política interagem de forma iterativa com o objetivo comum de determinar uma política ótima.

A maioria dos métodos de aprendizado por reforço pode ser descrita dentro do framework de GPI. As principais diferenças entre esses métodos decorrem das implementações específicas da avaliação de política e da melhoria de política, assim como da natureza de suas interações.

Interação Entre Dois Processos

A avaliação de política e a melhoria de política podem ser vistas como processos tanto cooperativos quanto competitivos, dependendo da perspectiva:

  • Cooperativo: ambos os processos trabalham em direção a um objetivo comum—encontrar a política ótima e a função de valor. A avaliação de política estima a função de valor para uma política dada, enquanto a melhoria de política refina a política com base nessas estimativas;
  • Competitivo: cada processo possui objetivos conflitantes. A avaliação de política busca estimar com precisão a função de valor para a política atual, o que frequentemente faz com que a política deixe de ser gananciosa. Por outro lado, a melhoria de política ajusta a política para ser gananciosa em relação às estimativas atuais da função de valor, normalmente tornando essas estimativas incorretas. Esse constante equilíbrio continua até que tanto a política quanto a função de valor convirjam para suas formas ótimas.

Resumo

Iteração de política generalizada é uma estrutura útil para compreender como diferentes métodos de aprendizado por reforço abordam a resolução dos MDPs. Nos próximos capítulos, você explorará como essas ideias podem ser aplicadas para criar dois métodos essenciais de DP: iteração de política e iteração de valor.

question mark

Selecione os dois processos que trabalham juntos no framework de iteração de política generalizada

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 3. Capítulo 6
some-alt