Iteração de Política Generalizada
Nos capítulos anteriores, você aprendeu sobre avaliação de política e melhoria de política. Esses processos se complementam e se combinam naturalmente em uma estrutura conhecida como iteração generalizada de política.
Iteração generalizada de política (GPI) é uma estrutura na qual avaliação de política e melhoria de política interagem de forma iterativa com o objetivo comum de determinar uma política ótima.
A maioria dos métodos de aprendizado por reforço pode ser descrita dentro da estrutura de GPI. As principais diferenças entre esses métodos decorrem das implementações específicas da avaliação de política e da melhoria de política, assim como da natureza de suas interações.
Interação Entre Dois Processos
A avaliação de política e a melhoria de política podem ser vistas tanto como processos cooperativos quanto competitivos, dependendo da perspectiva:
- Cooperativo: ambos os processos trabalham em direção a um objetivo comum—encontrar a política ótima e a função de valor. A avaliação de política estima a função de valor para uma política dada, enquanto a melhoria de política refina a política com base nessas estimativas;
- Competitivo: cada processo possui objetivos conflitantes. A avaliação de política busca estimar com precisão a função de valor para a política atual, o que frequentemente faz com que a política deixe de ser gananciosa. Por outro lado, a melhoria de política ajusta a política para ser gananciosa em relação às estimativas atuais da função de valor, normalmente tornando essas estimativas incorretas. Esse constante jogo de forças continua até que tanto a política quanto a função de valor convirjam para suas formas ótimas.
Resumo
Iteração de política generalizada é uma estrutura útil para compreender como diferentes métodos de aprendizado por reforço abordam a resolução dos MDPs. Nos próximos capítulos, você explorará como essas ideias podem ser aplicadas para criar dois métodos essenciais de DP: iteração de política e iteração de valor.
Obrigado pelo seu feedback!
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo
Can you explain what generalized policy iteration (GPI) is in simple terms?
What are the main differences between policy iteration and value iteration?
How do policy evaluation and policy improvement interact in practice?
Awesome!
Completion rate improved to 2.7
Iteração de Política Generalizada
Deslize para mostrar o menu
Nos capítulos anteriores, você aprendeu sobre avaliação de política e melhoria de política. Esses processos se complementam e se combinam naturalmente em uma estrutura conhecida como iteração generalizada de política.
Iteração generalizada de política (GPI) é uma estrutura na qual avaliação de política e melhoria de política interagem de forma iterativa com o objetivo comum de determinar uma política ótima.
A maioria dos métodos de aprendizado por reforço pode ser descrita dentro da estrutura de GPI. As principais diferenças entre esses métodos decorrem das implementações específicas da avaliação de política e da melhoria de política, assim como da natureza de suas interações.
Interação Entre Dois Processos
A avaliação de política e a melhoria de política podem ser vistas tanto como processos cooperativos quanto competitivos, dependendo da perspectiva:
- Cooperativo: ambos os processos trabalham em direção a um objetivo comum—encontrar a política ótima e a função de valor. A avaliação de política estima a função de valor para uma política dada, enquanto a melhoria de política refina a política com base nessas estimativas;
- Competitivo: cada processo possui objetivos conflitantes. A avaliação de política busca estimar com precisão a função de valor para a política atual, o que frequentemente faz com que a política deixe de ser gananciosa. Por outro lado, a melhoria de política ajusta a política para ser gananciosa em relação às estimativas atuais da função de valor, normalmente tornando essas estimativas incorretas. Esse constante jogo de forças continua até que tanto a política quanto a função de valor convirjam para suas formas ótimas.
Resumo
Iteração de política generalizada é uma estrutura útil para compreender como diferentes métodos de aprendizado por reforço abordam a resolução dos MDPs. Nos próximos capítulos, você explorará como essas ideias podem ser aplicadas para criar dois métodos essenciais de DP: iteração de política e iteração de valor.
Obrigado pelo seu feedback!