Conteúdo do Curso
Introdução ao Aprendizado por Reforço
Introdução ao Aprendizado por Reforço
Condições de Otimalidade
No capítulo anterior, você aprendeu sobre as equações de Bellman para funções de valor de estado e de valor de ação-estado. Essas equações descrevem como os valores dos estados podem ser definidos recursivamente por meio dos valores de outros estados, sendo os valores dependentes de uma política dada. No entanto, nem todas as políticas são igualmente eficazes. Na verdade, as funções de valor fornecem uma ordem parcial para as políticas, que pode ser descrita da seguinte forma:
Assim, a política é melhor ou igual à política se, para todos os estados possíveis, o retorno esperado da política não for menor que o retorno esperado da política .
Uma ordem parcial segue as regras usuais de ordenação, mas não exige que todo par seja comparado. No nosso caso, só podemos classificar duas políticas se elas produzirem os mesmos resultados ou se uma delas claramente superar a outra. Em todos os outros casos, as políticas permanecem incomparáveis.
Política Ótima
Para qualquer MDP, existe pelo menos uma política que é tão boa quanto ou melhor do que todas as outras políticas. Essa política é chamada de política ótima . Embora possam existir muitas políticas ótimas, todas são denotadas como .
Por que sempre existe uma política ótima?
Você pode estar se perguntando por que uma política ótima sempre existe para qualquer MDP. Essa é uma ótima pergunta, e a intuição por trás disso é surpreendentemente simples. Lembre-se de que os estados em um MDP capturam totalmente a condição do ambiente. Isso implica que cada estado é independente dos demais: a ação escolhida em um estado não afeta as recompensas ou resultados alcançáveis em outro. Portanto, ao selecionar a ação ótima em cada estado separadamente, você naturalmente chega à melhor sequência geral de ações em todo o processo. E esse conjunto de ações ótimas em cada estado constitui uma política ótima.
Além disso, sempre existe pelo menos uma política que é tanto ótima quanto determinística. De fato, se para algum estado , duas ações e resultam no mesmo retorno esperado, escolher apenas uma delas não afetará a otimalidade da política. Aplicando esse princípio a cada estado individualmente, a política se tornará determinística enquanto preserva sua otimalidade.
Funções de Valor Ótimas
Políticas ótimas compartilham as mesmas funções de valor — um fato que se torna evidente ao considerarmos como as políticas são comparadas. Isso significa que políticas ótimas compartilham tanto a função de valor de estado quanto a função de valor de ação.
Além disso, funções de valor ótimas possuem suas próprias equações de Bellman, que podem ser escritas sem referência a uma política específica. Essas equações são chamadas de equações de otimalidade de Bellman.
Função de valor de estado ótima
Função de valor de estado ótima (ou ) representa o retorno esperado máximo alcançável a partir de um determinado estado ao seguir uma política ótima.
Pode ser matematicamente definido da seguinte forma:
Equação de otimalidade de Bellman para essa função de valor pode ser derivada assim:
Intuição
Como já se sabe, sempre existe pelo menos uma política que é ótima e determinística. Tal política, para cada estado, seleciona consistentemente uma ação específica que maximiza os retornos esperados. Portanto, a probabilidade de escolher essa ação ótima será sempre 1, e a probabilidade de escolher qualquer outra ação será 0. Diante disso, a equação original de Bellman não precisa mais do operador de soma. Em vez disso, como sabemos que sempre será selecionada a melhor ação possível, basta substituir a soma por um máximo sobre todas as ações disponíveis.
Função valor-ação ótima
Função valor-ação ótima (ou ) representa o retorno esperado máximo alcançável ao tomar uma determinada ação em um determinado estado e seguir a política ótima posteriormente.
Pode ser definida matematicamente da seguinte forma:
Equação de otimalidade de Bellman para essa função de valor pode ser derivada da seguinte forma:
Intuição
De forma semelhante à função de valor de estado, a soma pode ser substituída por um máximo sobre todas as ações disponíveis.
Obrigado pelo seu feedback!