Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Iteração de Valor | Programação Dinâmica
Introdução ao Aprendizado por Reforço

bookIteração de Valor

Embora a iteração de política seja uma abordagem eficaz para resolver MDPs, ela apresenta uma desvantagem significativa: cada iteração envolve uma etapa separada de avaliação de política. Quando a avaliação de política é realizada iterativamente, são necessárias várias passagens por todo o espaço de estados, resultando em considerável sobrecarga computacional e tempos de processamento mais longos.

Uma boa alternativa é a iteração de valor, um método que combina a avaliação e a melhoria de política em um único passo. Esse método atualiza a função de valor diretamente até que ela convirja para a função de valor ótima. Após a convergência, a política ótima pode ser derivada diretamente dessa função de valor ótima.

Como Funciona?

Iteração de valor funciona realizando apenas um backup durante a avaliação de política, antes de executar a melhoria de política. Isso resulta na seguinte fórmula de atualização:

vk+1(s)maxas,rp(s,rs,a)(r+γvk(s))sSv_{k+1}(s) \gets \max_a \sum_{s',r}p(s',r|s,a)\Bigl(r+\gamma v_k(s')\Bigr) \qquad \forall s \in S

Ao transformar a equação de optimalidade de Bellman em uma regra de atualização, avaliação e melhoria de política são combinadas em um único passo.

Pseudocódigo

question mark

Com base no pseudocódigo, quando a iteração de valores é interrompida?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 3. Capítulo 8

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Awesome!

Completion rate improved to 2.7

bookIteração de Valor

Deslize para mostrar o menu

Embora a iteração de política seja uma abordagem eficaz para resolver MDPs, ela apresenta uma desvantagem significativa: cada iteração envolve uma etapa separada de avaliação de política. Quando a avaliação de política é realizada iterativamente, são necessárias várias passagens por todo o espaço de estados, resultando em considerável sobrecarga computacional e tempos de processamento mais longos.

Uma boa alternativa é a iteração de valor, um método que combina a avaliação e a melhoria de política em um único passo. Esse método atualiza a função de valor diretamente até que ela convirja para a função de valor ótima. Após a convergência, a política ótima pode ser derivada diretamente dessa função de valor ótima.

Como Funciona?

Iteração de valor funciona realizando apenas um backup durante a avaliação de política, antes de executar a melhoria de política. Isso resulta na seguinte fórmula de atualização:

vk+1(s)maxas,rp(s,rs,a)(r+γvk(s))sSv_{k+1}(s) \gets \max_a \sum_{s',r}p(s',r|s,a)\Bigl(r+\gamma v_k(s')\Bigr) \qquad \forall s \in S

Ao transformar a equação de optimalidade de Bellman em uma regra de atualização, avaliação e melhoria de política são combinadas em um único passo.

Pseudocódigo

question mark

Com base no pseudocódigo, quando a iteração de valores é interrompida?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 3. Capítulo 8
some-alt