Melhoria de Política
Melhoria de política é um processo de aprimoramento da política com base nas estimativas atuais da função de valor.
Assim como na avaliação de política, a melhoria de política pode ser realizada tanto com a função de valor de estado quanto com a função de valor de ação. Porém, para métodos de Programação Dinâmica, será utilizada a função de valor de estado.
Agora que é possível estimar a função de valor de estado para qualquer política, um próximo passo natural é explorar se existem políticas melhores do que a atual. Uma forma de fazer isso é considerar tomar uma ação diferente a em um estado s, e seguir a política atual em seguida. Se isso parece familiar, é porque é semelhante à forma como definimos a função de valor de ação:
qπ(s,a)=s′,r∑p(s′,r∣s,a)(r+γvπ(s′))Se esse novo valor for maior que o valor original do estado vπ(s), isso indica que tomar a ação a no estado s e então continuar com a política π leva a resultados melhores do que seguir estritamente a política π. Como os estados são independentes, é ótimo sempre selecionar a ação a sempre que o estado s for encontrado. Portanto, podemos construir uma política aprimorada π′, idêntica à π, exceto pelo fato de selecionar a ação a no estado s, o que seria superior à política original π.
Teorema de Melhoria de Política
O raciocínio descrito acima pode ser generalizado como o teorema de melhoria de política:
⟹qπ(s,π′(s))≥vπ(s)vπ′(s)≥vπ(s)∀s∈S∀s∈SA demonstração deste teorema é relativamente simples e pode ser realizada por meio de uma substituição repetida:
vπ(s)≤qπ(s,π′(s))=Eπ′[Rt+1+γvπ(St+1)∣St=s]≤Eπ′[Rt+1+γqπ(St+1,π′(St+1))∣St=s]=Eπ′[Rt+1+γEπ′[Rt+2+γvπ(St+2)]∣St=s]=Eπ′[Rt+1+γRt+2+γ2vπ(St+2)∣St=s]...≤Eπ′[Rt+1+γRt+2+γ2Rt+3+...∣St=s]=vπ′(s)Estratégia de Melhoria
Embora atualizar as ações para certos estados possa levar a melhorias, é mais eficaz atualizar as ações para todos os estados simultaneamente. Especificamente, para cada estado s, selecionar a ação a que maximiza o valor da ação qπ(s,a):
π′(s)←aargmaxqπ(s,a)←aargmaxs′,r∑p(s′,r∣s,a)(r+γvπ(s′))onde argmax (abreviação de argumento do máximo) é um operador que retorna o valor da variável que maximiza uma determinada função.
A política gananciosa resultante, denotada por π′, satisfaz as condições do teorema de melhoria de política por construção, garantindo que π′ seja pelo menos tão boa quanto a política original π, e tipicamente melhor.
Se π′ for tão boa quanto, mas não melhor que π, então ambas π′ e π são políticas ótimas, pois suas funções de valor são iguais e satisfazem a equação de otimalidade de Bellman:
vπ(s)=amaxs′,r∑p(s′,r∣s,a)(r+γvπ(s′))Obrigado pelo seu feedback!
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo
Can you explain the policy improvement theorem in simpler terms?
How does the greedy policy guarantee improvement over the original policy?
What is the Bellman optimality equation and why is it important?
Awesome!
Completion rate improved to 2.7
Melhoria de Política
Deslize para mostrar o menu
Melhoria de política é um processo de aprimoramento da política com base nas estimativas atuais da função de valor.
Assim como na avaliação de política, a melhoria de política pode ser realizada tanto com a função de valor de estado quanto com a função de valor de ação. Porém, para métodos de Programação Dinâmica, será utilizada a função de valor de estado.
Agora que é possível estimar a função de valor de estado para qualquer política, um próximo passo natural é explorar se existem políticas melhores do que a atual. Uma forma de fazer isso é considerar tomar uma ação diferente a em um estado s, e seguir a política atual em seguida. Se isso parece familiar, é porque é semelhante à forma como definimos a função de valor de ação:
qπ(s,a)=s′,r∑p(s′,r∣s,a)(r+γvπ(s′))Se esse novo valor for maior que o valor original do estado vπ(s), isso indica que tomar a ação a no estado s e então continuar com a política π leva a resultados melhores do que seguir estritamente a política π. Como os estados são independentes, é ótimo sempre selecionar a ação a sempre que o estado s for encontrado. Portanto, podemos construir uma política aprimorada π′, idêntica à π, exceto pelo fato de selecionar a ação a no estado s, o que seria superior à política original π.
Teorema de Melhoria de Política
O raciocínio descrito acima pode ser generalizado como o teorema de melhoria de política:
⟹qπ(s,π′(s))≥vπ(s)vπ′(s)≥vπ(s)∀s∈S∀s∈SA demonstração deste teorema é relativamente simples e pode ser realizada por meio de uma substituição repetida:
vπ(s)≤qπ(s,π′(s))=Eπ′[Rt+1+γvπ(St+1)∣St=s]≤Eπ′[Rt+1+γqπ(St+1,π′(St+1))∣St=s]=Eπ′[Rt+1+γEπ′[Rt+2+γvπ(St+2)]∣St=s]=Eπ′[Rt+1+γRt+2+γ2vπ(St+2)∣St=s]...≤Eπ′[Rt+1+γRt+2+γ2Rt+3+...∣St=s]=vπ′(s)Estratégia de Melhoria
Embora atualizar as ações para certos estados possa levar a melhorias, é mais eficaz atualizar as ações para todos os estados simultaneamente. Especificamente, para cada estado s, selecionar a ação a que maximiza o valor da ação qπ(s,a):
π′(s)←aargmaxqπ(s,a)←aargmaxs′,r∑p(s′,r∣s,a)(r+γvπ(s′))onde argmax (abreviação de argumento do máximo) é um operador que retorna o valor da variável que maximiza uma determinada função.
A política gananciosa resultante, denotada por π′, satisfaz as condições do teorema de melhoria de política por construção, garantindo que π′ seja pelo menos tão boa quanto a política original π, e tipicamente melhor.
Se π′ for tão boa quanto, mas não melhor que π, então ambas π′ e π são políticas ótimas, pois suas funções de valor são iguais e satisfazem a equação de otimalidade de Bellman:
vπ(s)=amaxs′,r∑p(s′,r∣s,a)(r+γvπ(s′))Obrigado pelo seu feedback!