Condições de Otimalidade
No capítulo anterior, foram apresentados os equacionamentos de Bellman para funções de valor de estado e de valor de ação-estado. Esses equacionamentos descrevem como os valores dos estados podem ser definidos recursivamente a partir dos valores de outros estados, sendo dependentes de uma determinada política. No entanto, nem todas as políticas são igualmente eficazes. De fato, as funções de valor fornecem uma ordem parcial para as políticas, que pode ser descrita da seguinte forma:
π≥π′⟺vπ(s)≥vπ′(s)∀s∈SAssim, a política π é melhor ou igual à política π′ se, para todos os estados possíveis, o retorno esperado da política π não for inferior ao retorno esperado da política π′.
Uma ordem parcial segue as regras usuais de ordenação, mas não exige que todo par seja comparado. Neste contexto, só é possível classificar duas políticas se elas produzirem os mesmos resultados ou se uma delas superar claramente a outra. Nos demais casos, as políticas permanecem incomparáveis.
Política Ótima
Para qualquer MDP, existe pelo menos uma política que é tão boa quanto ou melhor do que todas as outras políticas. Essa política é chamada de política ótima π∗. Embora possam existir muitas políticas ótimas, todas são denotadas como π∗.
Por que sempre existe uma política ótima?
Você pode estar se perguntando por que uma política ótima sempre existe para qualquer MDP. Essa é uma ótima pergunta, e a intuição por trás disso é surpreendentemente simples. Lembre-se de que os estados em um MDP capturam completamente a condição do ambiente. Isso implica que cada estado é independente dos demais: a ação escolhida em um estado não afeta as recompensas ou resultados alcançáveis em outro. Portanto, ao selecionar a ação ótima em cada estado separadamente, chega-se naturalmente à melhor sequência geral de ações em todo o processo. E esse conjunto de ações ótimas em cada estado constitui uma política ótima.
Além disso, sempre existe pelo menos uma política que é tanto ótima quanto determinística. De fato, se para algum estado s, duas ações a e a′ resultam no mesmo retorno esperado, selecionar apenas uma delas não afetará a otimalidade da política. Aplicando esse princípio a cada estado individualmente, a política se tornará determinística sem perder sua otimalidade.
Funções de Valor Ótimas
Políticas ótimas compartilham as mesmas funções de valor — um fato que se torna evidente ao considerarmos como as políticas são comparadas. Isso significa que políticas ótimas compartilham tanto a função de valor de estado quanto a função de valor de ação.
Além disso, funções de valor ótimas possuem suas próprias equações de Bellman, que podem ser escritas sem referência a uma política específica. Essas equações são chamadas de equações de otimalidade de Bellman.
Função de valor de estado ótima
Função de valor de estado ótima V∗ (ou v∗) representa o retorno esperado máximo alcançável a partir de um determinado estado ao seguir uma política ótima.
Pode ser definido matematicamente da seguinte forma:
v∗(s)=πmaxvπ(s)=Eπ∗[Gt∣St=s]Equação de otimalidade de Bellman para esta função de valor pode ser derivada da seguinte forma:
v∗(s)=a∑π∗(a∣s)s′,r∑p(s′,r∣s,a)(r+γv∗(s′))=amaxs′,r∑p(s′,r∣s,a)(r+γv∗(s′))Intuição
Como já se sabe, sempre existe pelo menos uma política que é ótima e determinística. Tal política, para cada estado, seleciona consistentemente uma ação específica que maximiza os retornos esperados. Portanto, a probabilidade de escolher essa ação ótima será sempre 1, e a probabilidade de escolher qualquer outra ação será 0. Diante disso, a equação original de Bellman não precisa mais do operador de soma. Em vez disso, como sabemos que sempre será selecionada a melhor ação possível, podemos simplesmente substituir a soma por um máximo sobre todas as ações disponíveis.
Função valor-ação ótima
Função valor-ação ótima Q∗ (ou q∗) representa o retorno esperado máximo alcançável ao tomar uma determinada ação em um determinado estado e seguir a política ótima posteriormente.
Pode ser definida matematicamente da seguinte forma:
q∗(s,a)=πmaxqπ(s,a)=Eπ∗[Gt∣St=s,At=a]Equação de otimalidade de Bellman para esta função de valor pode ser derivada da seguinte forma:
q∗(s,a)=s′,r∑p(s′,r∣s,a)(r+γa′∑π∗(a′∣s′)q∗(s′,a′))=s′,r∑p(s′,r∣s,a)(r+γa′maxq∗(s′,a′))Intuição
De forma semelhante à função de valor de estado, a soma pode ser substituída pela escolha do máximo entre todas as ações disponíveis.
Obrigado pelo seu feedback!
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo
Awesome!
Completion rate improved to 2.7
Condições de Otimalidade
Deslize para mostrar o menu
No capítulo anterior, foram apresentados os equacionamentos de Bellman para funções de valor de estado e de valor de ação-estado. Esses equacionamentos descrevem como os valores dos estados podem ser definidos recursivamente a partir dos valores de outros estados, sendo dependentes de uma determinada política. No entanto, nem todas as políticas são igualmente eficazes. De fato, as funções de valor fornecem uma ordem parcial para as políticas, que pode ser descrita da seguinte forma:
π≥π′⟺vπ(s)≥vπ′(s)∀s∈SAssim, a política π é melhor ou igual à política π′ se, para todos os estados possíveis, o retorno esperado da política π não for inferior ao retorno esperado da política π′.
Uma ordem parcial segue as regras usuais de ordenação, mas não exige que todo par seja comparado. Neste contexto, só é possível classificar duas políticas se elas produzirem os mesmos resultados ou se uma delas superar claramente a outra. Nos demais casos, as políticas permanecem incomparáveis.
Política Ótima
Para qualquer MDP, existe pelo menos uma política que é tão boa quanto ou melhor do que todas as outras políticas. Essa política é chamada de política ótima π∗. Embora possam existir muitas políticas ótimas, todas são denotadas como π∗.
Por que sempre existe uma política ótima?
Você pode estar se perguntando por que uma política ótima sempre existe para qualquer MDP. Essa é uma ótima pergunta, e a intuição por trás disso é surpreendentemente simples. Lembre-se de que os estados em um MDP capturam completamente a condição do ambiente. Isso implica que cada estado é independente dos demais: a ação escolhida em um estado não afeta as recompensas ou resultados alcançáveis em outro. Portanto, ao selecionar a ação ótima em cada estado separadamente, chega-se naturalmente à melhor sequência geral de ações em todo o processo. E esse conjunto de ações ótimas em cada estado constitui uma política ótima.
Além disso, sempre existe pelo menos uma política que é tanto ótima quanto determinística. De fato, se para algum estado s, duas ações a e a′ resultam no mesmo retorno esperado, selecionar apenas uma delas não afetará a otimalidade da política. Aplicando esse princípio a cada estado individualmente, a política se tornará determinística sem perder sua otimalidade.
Funções de Valor Ótimas
Políticas ótimas compartilham as mesmas funções de valor — um fato que se torna evidente ao considerarmos como as políticas são comparadas. Isso significa que políticas ótimas compartilham tanto a função de valor de estado quanto a função de valor de ação.
Além disso, funções de valor ótimas possuem suas próprias equações de Bellman, que podem ser escritas sem referência a uma política específica. Essas equações são chamadas de equações de otimalidade de Bellman.
Função de valor de estado ótima
Função de valor de estado ótima V∗ (ou v∗) representa o retorno esperado máximo alcançável a partir de um determinado estado ao seguir uma política ótima.
Pode ser definido matematicamente da seguinte forma:
v∗(s)=πmaxvπ(s)=Eπ∗[Gt∣St=s]Equação de otimalidade de Bellman para esta função de valor pode ser derivada da seguinte forma:
v∗(s)=a∑π∗(a∣s)s′,r∑p(s′,r∣s,a)(r+γv∗(s′))=amaxs′,r∑p(s′,r∣s,a)(r+γv∗(s′))Intuição
Como já se sabe, sempre existe pelo menos uma política que é ótima e determinística. Tal política, para cada estado, seleciona consistentemente uma ação específica que maximiza os retornos esperados. Portanto, a probabilidade de escolher essa ação ótima será sempre 1, e a probabilidade de escolher qualquer outra ação será 0. Diante disso, a equação original de Bellman não precisa mais do operador de soma. Em vez disso, como sabemos que sempre será selecionada a melhor ação possível, podemos simplesmente substituir a soma por um máximo sobre todas as ações disponíveis.
Função valor-ação ótima
Função valor-ação ótima Q∗ (ou q∗) representa o retorno esperado máximo alcançável ao tomar uma determinada ação em um determinado estado e seguir a política ótima posteriormente.
Pode ser definida matematicamente da seguinte forma:
q∗(s,a)=πmaxqπ(s,a)=Eπ∗[Gt∣St=s,At=a]Equação de otimalidade de Bellman para esta função de valor pode ser derivada da seguinte forma:
q∗(s,a)=s′,r∑p(s′,r∣s,a)(r+γa′∑π∗(a′∣s′)q∗(s′,a′))=s′,r∑p(s′,r∣s,a)(r+γa′maxq∗(s′,a′))Intuição
De forma semelhante à função de valor de estado, a soma pode ser substituída pela escolha do máximo entre todas as ações disponíveis.
Obrigado pelo seu feedback!