Melhoria de Política
Melhoria de política é um processo de aprimoramento da política com base nas estimativas atuais da função de valor.
Assim como na avaliação de política, a melhoria de política pode ser realizada tanto com a função de valor de estado quanto com a função de valor de ação. Porém, para métodos de Programação Dinâmica, será utilizada a função de valor de estado.
Agora que é possível estimar a função de valor de estado para qualquer política, um próximo passo natural é explorar se existem políticas melhores do que a atual. Uma forma de fazer isso é considerar tomar uma ação diferente a em um estado s, e seguir a política atual em seguida. Se isso parece familiar, é porque é semelhante à forma como definimos a função de valor de ação:
qπ(s,a)=s′,r∑p(s′,r∣s,a)(r+γvπ(s′))Se esse novo valor for maior que o valor original do estado vπ(s), isso indica que tomar a ação a no estado s e então continuar com a política π leva a resultados melhores do que seguir estritamente a política π. Como os estados são independentes, é ótimo sempre selecionar a ação a sempre que o estado s for encontrado. Portanto, podemos construir uma política aprimorada π′, idêntica à π, exceto pelo fato de selecionar a ação a no estado s, o que seria superior à política original π.
Teorema de Melhoria de Política
O raciocínio descrito acima pode ser generalizado como o teorema de melhoria de política:
⟹qπ(s,π′(s))≥vπ(s)vπ′(s)≥vπ(s)∀s∈S∀s∈SA demonstração deste teorema é relativamente simples e pode ser realizada por meio de uma substituição repetida:
vπ(s)≤qπ(s,π′(s))=Eπ′[Rt+1+γvπ(St+1)∣St=s]≤Eπ′[Rt+1+γqπ(St+1,π′(St+1))∣St=s]=Eπ′[Rt+1+γEπ′[Rt+2+γvπ(St+2)]∣St=s]=Eπ′[Rt+1+γRt+2+γ2vπ(St+2)∣St=s]...≤Eπ′[Rt+1+γRt+2+γ2Rt+3+...∣St=s]=vπ′(s)Estratégia de Melhoria
Embora atualizar as ações para certos estados possa levar a melhorias, é mais eficaz atualizar as ações para todos os estados simultaneamente. Especificamente, para cada estado s, selecionar a ação a que maximiza o valor da ação qπ(s,a):
π′(s)←aargmaxqπ(s,a)←aargmaxs′,r∑p(s′,r∣s,a)(r+γvπ(s′))onde argmax (abreviação de argumento do máximo) é um operador que retorna o valor da variável que maximiza uma determinada função.
A política gananciosa resultante, denotada por π′, satisfaz as condições do teorema de melhoria de política por construção, garantindo que π′ seja pelo menos tão boa quanto a política original π, e tipicamente melhor.
Se π′ for tão boa quanto, mas não melhor que π, então ambas π′ e π são políticas ótimas, pois suas funções de valor são iguais e satisfazem a equação de otimalidade de Bellman:
vπ(s)=amaxs′,r∑p(s′,r∣s,a)(r+γvπ(s′))Obrigado pelo seu feedback!
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo
Awesome!
Completion rate improved to 2.7
Melhoria de Política
Deslize para mostrar o menu
Melhoria de política é um processo de aprimoramento da política com base nas estimativas atuais da função de valor.
Assim como na avaliação de política, a melhoria de política pode ser realizada tanto com a função de valor de estado quanto com a função de valor de ação. Porém, para métodos de Programação Dinâmica, será utilizada a função de valor de estado.
Agora que é possível estimar a função de valor de estado para qualquer política, um próximo passo natural é explorar se existem políticas melhores do que a atual. Uma forma de fazer isso é considerar tomar uma ação diferente a em um estado s, e seguir a política atual em seguida. Se isso parece familiar, é porque é semelhante à forma como definimos a função de valor de ação:
qπ(s,a)=s′,r∑p(s′,r∣s,a)(r+γvπ(s′))Se esse novo valor for maior que o valor original do estado vπ(s), isso indica que tomar a ação a no estado s e então continuar com a política π leva a resultados melhores do que seguir estritamente a política π. Como os estados são independentes, é ótimo sempre selecionar a ação a sempre que o estado s for encontrado. Portanto, podemos construir uma política aprimorada π′, idêntica à π, exceto pelo fato de selecionar a ação a no estado s, o que seria superior à política original π.
Teorema de Melhoria de Política
O raciocínio descrito acima pode ser generalizado como o teorema de melhoria de política:
⟹qπ(s,π′(s))≥vπ(s)vπ′(s)≥vπ(s)∀s∈S∀s∈SA demonstração deste teorema é relativamente simples e pode ser realizada por meio de uma substituição repetida:
vπ(s)≤qπ(s,π′(s))=Eπ′[Rt+1+γvπ(St+1)∣St=s]≤Eπ′[Rt+1+γqπ(St+1,π′(St+1))∣St=s]=Eπ′[Rt+1+γEπ′[Rt+2+γvπ(St+2)]∣St=s]=Eπ′[Rt+1+γRt+2+γ2vπ(St+2)∣St=s]...≤Eπ′[Rt+1+γRt+2+γ2Rt+3+...∣St=s]=vπ′(s)Estratégia de Melhoria
Embora atualizar as ações para certos estados possa levar a melhorias, é mais eficaz atualizar as ações para todos os estados simultaneamente. Especificamente, para cada estado s, selecionar a ação a que maximiza o valor da ação qπ(s,a):
π′(s)←aargmaxqπ(s,a)←aargmaxs′,r∑p(s′,r∣s,a)(r+γvπ(s′))onde argmax (abreviação de argumento do máximo) é um operador que retorna o valor da variável que maximiza uma determinada função.
A política gananciosa resultante, denotada por π′, satisfaz as condições do teorema de melhoria de política por construção, garantindo que π′ seja pelo menos tão boa quanto a política original π, e tipicamente melhor.
Se π′ for tão boa quanto, mas não melhor que π, então ambas π′ e π são políticas ótimas, pois suas funções de valor são iguais e satisfazem a equação de otimalidade de Bellman:
vπ(s)=amaxs′,r∑p(s′,r∣s,a)(r+γvπ(s′))Obrigado pelo seu feedback!