Conteúdo do Curso
Introdução ao Aprendizado por Reforço
Introdução ao Aprendizado por Reforço
Avaliação de Política
Avaliação de política é o processo de determinar a função de valor de uma política dada.
A avaliação de política pode ser utilizada para estimar tanto a função de valor de estado quanto a função de valor de ação. No entanto, para métodos de Programação Dinâmica, será utilizada a função de valor de estado.
Como já visto, a função de valor de estado de uma política pode ser determinada resolvendo a equação de Bellman:
Se você possui um modelo completo do ambiente (ou seja, probabilidades de transição conhecidas e recompensas esperadas para todos os pares estado-ação), as únicas variáveis desconhecidas restantes na equação são os valores dos estados. Portanto, a equação acima pode ser reformulada como um sistema de equações lineares com incógnitas.
Por exemplo, se um MDP possui 2 estados (, ) e 2 ações (mover para , mover para ), a função de valor de estado pode ser definida assim:
Isso pode ser resolvido utilizando técnicas padrão de álgebra linear.
Uma solução única para tal sistema linear é garantida se pelo menos uma das seguintes condições for satisfeita:
- O fator de desconto satisfaz ;
- A política , quando seguida a partir de qualquer estado , garante que o episódio eventualmente termine.
Avaliação Iterativa de Política
A solução pode ser calculada diretamente, mas uma abordagem iterativa é mais comumente utilizada devido à sua facilidade de implementação. Este método começa atribuindo valores arbitrários a todos os estados, exceto para os estados terminais, que são definidos como 0. Os valores são então atualizados iterativamente utilizando a equação de Bellman como regra de atualização:
A função de valor de estado estimada eventualmente converge para a verdadeira função de valor de estado à medida que , se existir.
Estratégias de Backup de Valor
Ao atualizar as estimativas de valor, novas estimativas são calculadas com base nos valores anteriores. O processo de preservar as estimativas anteriores é denominado backup. Existem duas estratégias comuns para realizar backups:
- Backup completo: este método envolve armazenar as novas estimativas em um array separado, distinto daquele que contém os valores anteriores (armazenados em backup). Consequentemente, são necessários dois arrays — um para manter as estimativas anteriores e outro para armazenar os valores recém-calculados;
- Backup in-place: esta abordagem mantém todos os valores em um único array. Cada nova estimativa substitui imediatamente o valor anterior. Este método reduz o uso de memória, pois apenas um array é necessário.
Normalmente, o método de backup in-place é preferido porque requer menos memória e converge mais rapidamente, devido ao uso imediato das estimativas mais recentes.
Quando parar de atualizar?
Na avaliação iterativa de política, não existe um ponto exato em que o algoritmo deve ser interrompido. Embora a convergência seja garantida no limite, continuar os cálculos além de certo ponto é desnecessário na prática. Um critério de parada simples e eficaz é acompanhar a diferença absoluta entre as estimativas de valor consecutivas, , e compará-la a um pequeno limiar . Se, após um ciclo completo de atualização (em que os valores de todos os estados são atualizados), nenhuma alteração exceder , o processo pode ser encerrado com segurança.
Pseudocódigo
Obrigado pelo seu feedback!