Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Iteração de Política Generalizada | Programação Dinâmica
Introdução ao Aprendizado por Reforço
course content

Conteúdo do Curso

Introdução ao Aprendizado por Reforço

Introdução ao Aprendizado por Reforço

1. Teoria Central de RL
2. Problema do Bandido de Múltiplos Braços
3. Programação Dinâmica
4. Métodos de Monte Carlo
5. Aprendizado por Diferença Temporal

book
Iteração de Política Generalizada

Nos capítulos anteriores, você aprendeu sobre avaliação de política e melhoria de política. Esses processos se complementam e se combinam naturalmente em um framework conhecido como iteração generalizada de política.

Note
Definição

Iteração generalizada de política (GPI) é um framework no qual avaliação de política e melhoria de política interagem de forma iterativa com o objetivo comum de determinar uma política ótima.

A maioria dos métodos de aprendizado por reforço pode ser descrita dentro do framework de GPI. As principais diferenças entre esses métodos decorrem das implementações específicas da avaliação de política e da melhoria de política, assim como da natureza de suas interações.

Interação Entre Dois Processos

A avaliação de política e a melhoria de política podem ser vistas como processos tanto cooperativos quanto competitivos, dependendo da perspectiva:

  • Cooperativo: ambos os processos trabalham em direção a um objetivo comum—encontrar a política ótima e a função de valor. A avaliação de política estima a função de valor para uma política dada, enquanto a melhoria de política refina a política com base nessas estimativas;
  • Competitivo: cada processo possui objetivos conflitantes. A avaliação de política busca estimar com precisão a função de valor para a política atual, o que frequentemente faz com que a política deixe de ser gananciosa. Por outro lado, a melhoria de política ajusta a política para ser gananciosa em relação às estimativas atuais da função de valor, normalmente tornando essas estimativas incorretas. Esse constante equilíbrio continua até que tanto a política quanto a função de valor convirjam para suas formas ótimas.

Resumo

Iteração de política generalizada é uma estrutura útil para compreender como diferentes métodos de aprendizado por reforço abordam a resolução dos MDPs. Nos próximos capítulos, você explorará como essas ideias podem ser aplicadas para criar dois métodos essenciais de DP: iteração de política e iteração de valor.

question mark

Selecione os dois processos que trabalham juntos no framework de iteração de política generalizada

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 3. Capítulo 6

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

course content

Conteúdo do Curso

Introdução ao Aprendizado por Reforço

Introdução ao Aprendizado por Reforço

1. Teoria Central de RL
2. Problema do Bandido de Múltiplos Braços
3. Programação Dinâmica
4. Métodos de Monte Carlo
5. Aprendizado por Diferença Temporal

book
Iteração de Política Generalizada

Nos capítulos anteriores, você aprendeu sobre avaliação de política e melhoria de política. Esses processos se complementam e se combinam naturalmente em um framework conhecido como iteração generalizada de política.

Note
Definição

Iteração generalizada de política (GPI) é um framework no qual avaliação de política e melhoria de política interagem de forma iterativa com o objetivo comum de determinar uma política ótima.

A maioria dos métodos de aprendizado por reforço pode ser descrita dentro do framework de GPI. As principais diferenças entre esses métodos decorrem das implementações específicas da avaliação de política e da melhoria de política, assim como da natureza de suas interações.

Interação Entre Dois Processos

A avaliação de política e a melhoria de política podem ser vistas como processos tanto cooperativos quanto competitivos, dependendo da perspectiva:

  • Cooperativo: ambos os processos trabalham em direção a um objetivo comum—encontrar a política ótima e a função de valor. A avaliação de política estima a função de valor para uma política dada, enquanto a melhoria de política refina a política com base nessas estimativas;
  • Competitivo: cada processo possui objetivos conflitantes. A avaliação de política busca estimar com precisão a função de valor para a política atual, o que frequentemente faz com que a política deixe de ser gananciosa. Por outro lado, a melhoria de política ajusta a política para ser gananciosa em relação às estimativas atuais da função de valor, normalmente tornando essas estimativas incorretas. Esse constante equilíbrio continua até que tanto a política quanto a função de valor convirjam para suas formas ótimas.

Resumo

Iteração de política generalizada é uma estrutura útil para compreender como diferentes métodos de aprendizado por reforço abordam a resolução dos MDPs. Nos próximos capítulos, você explorará como essas ideias podem ser aplicadas para criar dois métodos essenciais de DP: iteração de política e iteração de valor.

question mark

Selecione os dois processos que trabalham juntos no framework de iteração de política generalizada

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 3. Capítulo 6
some-alt