Conteúdo do Curso
Introdução ao Aprendizado por Reforço
Introdução ao Aprendizado por Reforço
Iteração de Valor
Embora a iteração de política seja uma abordagem eficaz para resolver MDPs, ela apresenta uma desvantagem significativa: cada iteração envolve uma etapa separada de avaliação de política. Quando a avaliação de política é realizada iterativamente, são necessárias várias passagens por todo o espaço de estados, resultando em considerável sobrecarga computacional e tempos de processamento mais longos.
Uma boa alternativa é a iteração de valor, um método que combina a avaliação e a melhoria de política em um único passo. Esse método atualiza a função de valor diretamente até que ela convirja para a função de valor ótima. Após a convergência, a política ótima pode ser derivada diretamente dessa função de valor ótima.
Como Funciona?
Iteração de valor funciona realizando apenas um backup durante a avaliação de política, antes de executar a melhoria de política. Isso resulta na seguinte fórmula de atualização:
Ao transformar a equação de optimalidade de Bellman em uma regra de atualização, avaliação e melhoria de política são combinadas em um único passo.
Pseudocódigo
Obrigado pelo seu feedback!