Aprenda Condições de Otimalidade | Programação Dinâmica

No capítulo anterior, foram apresentados os equacionamentos de Bellman para as funções de valor de estado e valor de ação-estado. Esses equacionamentos descrevem como os valores dos estados podem ser definidos recursivamente por meio dos valores de outros estados, sendo dependentes de uma política específica. No entanto, nem todas as políticas são igualmente eficazes. Na verdade, as funções de valor fornecem uma ordem parcial para as políticas, que pode ser descrita da seguinte forma:

\pi \ge \pi' \iff v_\pi(s) \ge v_{\pi'}(s) \qquad \forall s \in S

Assim, a política $\pi$ é melhor ou igual à política $\pi'$ se, para todos os estados possíveis, o retorno esperado da política $\pi$ não for inferior ao retorno esperado da política $\pi'$ .

Aprofunde-se

Uma ordem parcial segue as regras usuais de ordenação, mas não exige que todo par seja comparado. Neste contexto, só é possível classificar duas políticas se elas produzirem os mesmos resultados ou se uma delas superar claramente a outra. Nos demais casos, as políticas permanecem incomparáveis.

Política Ótima

Definição

Para qualquer MDP, existe pelo menos uma política que é tão boa quanto ou melhor do que todas as outras políticas. Essa política é chamada de política ótima $\pi_*$ . Embora possam existir muitas políticas ótimas, todas são denotadas como $\pi_*$ .

Por que sempre existe uma política ótima?

Você pode estar se perguntando por que uma política ótima sempre existe para qualquer MDP. Essa é uma ótima pergunta, e a intuição por trás disso é surpreendentemente simples. Lembre-se de que os estados em um MDP capturam completamente a condição do ambiente. Isso implica que cada estado é independente dos demais: a ação escolhida em um estado não afeta as recompensas ou resultados alcançáveis em outro. Portanto, ao selecionar a ação ótima em cada estado separadamente, chega-se naturalmente à melhor sequência geral de ações em todo o processo. E esse conjunto de ações ótimas em cada estado constitui uma política ótima.

Além disso, sempre existe pelo menos uma política que é tanto ótima quanto determinística. De fato, se para algum estado $s$ , duas ações $a$ e $a'$ resultam no mesmo retorno esperado, selecionar apenas uma delas não afetará a otimalidade da política. Aplicando esse princípio a cada estado individualmente, a política se torna determinística enquanto preserva sua otimalidade.

Funções de Valor Ótimas

Políticas ótimas compartilham as mesmas funções de valor — um fato que se torna claro ao considerarmos como as políticas são comparadas. Isso significa que políticas ótimas compartilham tanto a função de valor de estado quanto a função de valor de ação.

Além disso, funções de valor ótimas possuem suas próprias equações de Bellman, que podem ser escritas sem referência a uma política específica. Essas equações são chamadas de equações de otimalidade de Bellman.

Função de valor de estado ótima

Definição

Função de valor de estado ótima $V_*$ (ou $v_*$ ) representa o retorno esperado máximo alcançável a partir de um determinado estado ao seguir uma política ótima.

Pode ser definido matematicamente da seguinte forma:

\def\E{\operatorname{\mathbb{E}}} v_*(s) = \max_\pi v_\pi(s) = \E_{\pi_*}[G_t | S_t = s]

Equação de otimalidade de Bellman para esta função de valor pode ser derivada da seguinte maneira:

\begin{aligned} v_*(s) &= \sum_a \pi_*(a | s) \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_*(s')\Bigr)\\ &= \max_a \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_*(s')\Bigr) \end{aligned}

Intuição

Como já se sabe, sempre existe pelo menos uma política que é ótima e determinística. Tal política, para cada estado, seleciona consistentemente uma ação específica que maximiza os retornos esperados. Portanto, a probabilidade de escolher essa ação ótima será sempre 1, e a probabilidade de escolher qualquer outra ação será 0. Diante disso, a equação original de Bellman não precisa mais do operador de soma. Em vez disso, como sabemos que sempre selecionaremos a melhor ação possível, podemos simplesmente substituir a soma por um máximo sobre todas as ações disponíveis.

Função valor-ação ótima

Definição

Função valor-ação ótima $Q_*$ (ou $q_*$ ) representa o retorno esperado máximo alcançável ao tomar uma determinada ação em um determinado estado e seguir a política ótima posteriormente.

Pode ser definida matematicamente da seguinte forma:

\def\E{\operatorname{\mathbb{E}}} q_*(s, a) = \max_\pi q_\pi(s, a) = \E_{\pi_*}[G_t | S_t = s, A_t = a]

Equação de otimalidade de Bellman para esta função de valor pode ser derivada da seguinte forma:

\begin{aligned} q_*(s, a) &= \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma \sum_{a'} \pi_*(a' | s')q_*(s', a')\Bigr)\\ &= \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma \max_{a'} q_*(s', a')\Bigr) \end{aligned}

Intuição

De forma semelhante à função de valor de estado, a soma pode ser substituída pela escolha do máximo entre todas as ações disponíveis.

Tudo estava claro?

Obrigado pelo seu feedback!

Seção 3. Capítulo 3

Pergunte à IA

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Suggested prompts:

Can you explain the difference between deterministic and stochastic policies?

How do Bellman optimality equations help in finding the optimal policy?

Can you provide an example of how to compute the optimal value function for a simple MDP?

Deslize para mostrar o menu

\pi \ge \pi' \iff v_\pi(s) \ge v_{\pi'}(s) \qquad \forall s \in S

Aprofunde-se

Política Ótima

Definição

Por que sempre existe uma política ótima?

Funções de Valor Ótimas

Função de valor de estado ótima

Definição

Função de valor de estado ótima $V_*$ (ou $v_*$ ) representa o retorno esperado máximo alcançável a partir de um determinado estado ao seguir uma política ótima.

Pode ser definido matematicamente da seguinte forma:

\def\E{\operatorname{\mathbb{E}}} v_*(s) = \max_\pi v_\pi(s) = \E_{\pi_*}[G_t | S_t = s]

Equação de otimalidade de Bellman para esta função de valor pode ser derivada da seguinte maneira:

\begin{aligned} v_*(s) &= \sum_a \pi_*(a | s) \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_*(s')\Bigr)\\ &= \max_a \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_*(s')\Bigr) \end{aligned}

Intuição

Função valor-ação ótima

Definição

Pode ser definida matematicamente da seguinte forma:

\def\E{\operatorname{\mathbb{E}}} q_*(s, a) = \max_\pi q_\pi(s, a) = \E_{\pi_*}[G_t | S_t = s, A_t = a]

Equação de otimalidade de Bellman para esta função de valor pode ser derivada da seguinte forma:

\begin{aligned} q_*(s, a) &= \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma \sum_{a'} \pi_*(a' | s')q_*(s', a')\Bigr)\\ &= \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma \max_{a'} q_*(s', a')\Bigr) \end{aligned}

Intuição

De forma semelhante à função de valor de estado, a soma pode ser substituída pela escolha do máximo entre todas as ações disponíveis.

Tudo estava claro?

Obrigado pelo seu feedback!

Seção 3. Capítulo 3