Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Iteração de Valor | Programação Dinâmica
Introdução ao Aprendizado por Reforço
course content

Conteúdo do Curso

Introdução ao Aprendizado por Reforço

Introdução ao Aprendizado por Reforço

1. Teoria Central de RL
2. Problema do Bandido de Múltiplos Braços
3. Programação Dinâmica
4. Métodos de Monte Carlo
5. Aprendizado por Diferença Temporal

book
Iteração de Valor

Embora a iteração de política seja uma abordagem eficaz para resolver MDPs, ela apresenta uma desvantagem significativa: cada iteração envolve uma etapa separada de avaliação de política. Quando a avaliação de política é realizada iterativamente, são necessárias várias passagens por todo o espaço de estados, resultando em considerável sobrecarga computacional e tempos de processamento mais longos.

Uma boa alternativa é a iteração de valor, um método que combina a avaliação e a melhoria de política em um único passo. Esse método atualiza a função de valor diretamente até que ela convirja para a função de valor ótima. Após a convergência, a política ótima pode ser derivada diretamente dessa função de valor ótima.

Como Funciona?

Iteração de valor funciona realizando apenas um backup durante a avaliação de política, antes de executar a melhoria de política. Isso resulta na seguinte fórmula de atualização:

vk+1(s)maxas,rp(s,rs,a)(r+γvk(s))sSv_{k+1}(s) \gets \max_a \sum_{s',r}p(s',r|s,a)\Bigl(r+\gamma v_k(s')\Bigr) \qquad \forall s \in S

Ao transformar a equação de optimalidade de Bellman em uma regra de atualização, avaliação e melhoria de política são combinadas em um único passo.

Pseudocódigo

question mark

Com base no pseudocódigo, quando a iteração de valores é interrompida?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 3. Capítulo 8

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

course content

Conteúdo do Curso

Introdução ao Aprendizado por Reforço

Introdução ao Aprendizado por Reforço

1. Teoria Central de RL
2. Problema do Bandido de Múltiplos Braços
3. Programação Dinâmica
4. Métodos de Monte Carlo
5. Aprendizado por Diferença Temporal

book
Iteração de Valor

Embora a iteração de política seja uma abordagem eficaz para resolver MDPs, ela apresenta uma desvantagem significativa: cada iteração envolve uma etapa separada de avaliação de política. Quando a avaliação de política é realizada iterativamente, são necessárias várias passagens por todo o espaço de estados, resultando em considerável sobrecarga computacional e tempos de processamento mais longos.

Uma boa alternativa é a iteração de valor, um método que combina a avaliação e a melhoria de política em um único passo. Esse método atualiza a função de valor diretamente até que ela convirja para a função de valor ótima. Após a convergência, a política ótima pode ser derivada diretamente dessa função de valor ótima.

Como Funciona?

Iteração de valor funciona realizando apenas um backup durante a avaliação de política, antes de executar a melhoria de política. Isso resulta na seguinte fórmula de atualização:

vk+1(s)maxas,rp(s,rs,a)(r+γvk(s))sSv_{k+1}(s) \gets \max_a \sum_{s',r}p(s',r|s,a)\Bigl(r+\gamma v_k(s')\Bigr) \qquad \forall s \in S

Ao transformar a equação de optimalidade de Bellman em uma regra de atualização, avaliação e melhoria de política são combinadas em um único passo.

Pseudocódigo

question mark

Com base no pseudocódigo, quando a iteração de valores é interrompida?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 3. Capítulo 8
some-alt