Aprenda Melhoria de Política | Programação Dinâmica

Definição

Melhoria de política é um processo de aprimoramento da política com base nas estimativas atuais da função de valor.

Nota

Assim como na avaliação de política, a melhoria de política pode ser realizada tanto com a função de valor de estado quanto com a função de valor de ação. Porém, para métodos de Programação Dinâmica, será utilizada a função de valor de estado.

Agora que é possível estimar a função de valor de estado para qualquer política, um próximo passo natural é investigar se existem políticas melhores do que a atual. Uma forma de fazer isso é considerar tomar uma ação diferente $a$ em um estado $s$ e, em seguida, seguir a política atual. Se isso parece familiar, é porque é semelhante à forma como definimos a função de valor de ação:

q_\pi(s, a) = \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_\pi(s')\Bigr)

Se esse novo valor for maior que o valor original do estado $v_\pi(s)$ , isso indica que tomar a ação $a$ no estado $s$ e, em seguida, continuar com a política $\pi$ leva a resultados melhores do que seguir estritamente a política $\pi$ . Como os estados são independentes, é ótimo sempre selecionar a ação $a$ sempre que o estado $s$ for encontrado. Portanto, podemos construir uma política aprimorada $\pi'$ , idêntica à $\pi$ , exceto pelo fato de selecionar a ação $a$ no estado $s$ , o que seria superior à política original $\pi$ .

Teorema de Melhoria de Política

O raciocínio descrito acima pode ser generalizado como o teorema de melhoria de política:

\begin{aligned} &q_\pi(s, \pi'(s)) \ge v_\pi(s) \qquad &\forall s \in S\\ \implies &v_{\pi'}(s) \ge v_\pi(s) \qquad &\forall s \in S \end{aligned}

A demonstração deste teorema é relativamente simples e pode ser realizada por meio de uma substituição repetida:

\def\E{\operatorname{\mathbb{E}}} \begin{aligned} v_\pi(s) &\le q_\pi(s, \pi'(s))\\ &= \E_{\pi'}[R_{t+1} + \gamma v_\pi(S_{t+1}) | S_t = s]\\ &\le \E_{\pi'}[R_{t+1} + \gamma q_\pi(S_{t+1}, \pi'(S_{t+1})) | S_t = s]\\ &= \E_{\pi'}[R_{t+1} + \gamma \E_{\pi'}[R_{t+2} + \gamma v_\pi(S_{t+2})] | S_t = s]\\ &= \E_{\pi'}[R_{t+1} + \gamma R_{t+2} + \gamma^2 v_\pi(S_{t+2}) | S_t = s]\\ &...\\ &\le \E_{\pi'}[R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... | S_t = s]\\ &= v_{\pi'}(s) \end{aligned}

Estratégia de Melhoria

Embora atualizar as ações para certos estados possa levar a melhorias, é mais eficaz atualizar as ações para todos os estados simultaneamente. Especificamente, para cada estado $s$ , selecionar a ação $a$ que maximiza o valor da ação $q_\pi(s, a)$ :

\begin{aligned} \pi'(s) &\gets \argmax_a q_\pi(s, a)\\ &\gets \argmax_a \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_\pi(s')\Bigr) \end{aligned}

onde $\argmax$ (abreviação de argumento do máximo) é um operador que retorna o valor da variável que maximiza uma determinada função.

A política gananciosa resultante, denotada por $\pi'$ , satisfaz as condições do teorema de melhoria de política por construção, garantindo que $\pi'$ seja pelo menos tão boa quanto a política original $\pi$ , e tipicamente melhor.

Se $\pi'$ for tão boa quanto, mas não melhor que $\pi$ , então ambas $\pi'$ e $\pi$ são políticas ótimas, pois suas funções de valor são iguais e satisfazem a equação de otimalidade de Bellman:

v_\pi(s) = \max_a \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_\pi(s')\Bigr)

Tudo estava claro?

Obrigado pelo seu feedback!

Seção 3. Capítulo 5

Pergunte à IA

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Deslize para mostrar o menu