Conteúdo do Curso
Introdução ao Aprendizado por Reforço
Introdução ao Aprendizado por Reforço
Equações de Bellman
Uma equação de Bellman é uma equação funcional que define uma função de valor em forma recursiva.
Para esclarecer a definição:
- Uma equação funcional é uma equação cuja solução é uma função. Para a equação de Bellman, essa solução é a função de valor para a qual a equação foi formulada;
- Uma forma recursiva significa que o valor no estado atual é expresso em termos dos valores nos estados futuros.
Em resumo, resolver a equação de Bellman fornece a função de valor desejada, e derivar essa equação exige identificar uma relação recursiva entre os estados atuais e futuros.
Função de Valor de Estado
Como lembrete, aqui está uma função de valor de estado em forma compacta:
Para obter a equação de Bellman para esta função de valor, vamos expandir o lado direito da equação e estabelecer uma relação recursiva:
A última equação desta cadeia é uma equação de Bellman para a função de valor de estado.
Intuição
Para encontrar o valor de um estado , deve-se:
- Considerar todas as possíveis ações que podem ser tomadas a partir deste estado, cada uma ponderada pela probabilidade de escolha sob a política atual ;
- Para cada ação , considerar todos os possíveis próximos estados e recompensas , ponderados por sua probabilidade ;
- Para cada um desses resultados, somar a recompensa imediata recebida mais o valor descontado do próximo estado .
Ao somar todas essas possibilidades, obtém-se o valor esperado total do estado sob a política atual.
Função de Valor de Ação
Aqui está uma função de valor de ação em forma compacta:
A dedução da equação de Bellman para esta função é bastante semelhante à anterior:
A última equação desta cadeia é uma equação de Bellman para a função de valor de ação.
Intuição
Para encontrar o valor de um par estado-ação , você:
- Considera todos os possíveis próximos estados e recompensas , ponderados pela sua probabilidade ;
- Para cada um desses resultados, soma a recompensa imediata recebida mais o valor descontado do próximo estado;
- Para calcular o valor do próximo estado , para todas as ações possíveis a partir do estado , multiplica o valor da ação pela probabilidade de escolher no estado sob a política atual . Em seguida, soma tudo para obter o valor final.
Ao somar todas essas possibilidades, obtém-se o valor esperado total do par estado-ação sob a política atual.
Obrigado pelo seu feedback!