Equações de Bellman
Uma equação de Bellman é uma equação funcional que define uma função de valor em forma recursiva.
Para esclarecer a definição:
- Uma equação funcional é uma equação cuja solução é uma função. Para a equação de Bellman, essa solução é a função de valor para a qual a equação foi formulada;
- Uma forma recursiva significa que o valor no estado atual é expresso em termos dos valores nos estados futuros.
Em resumo, resolver a equação de Bellman fornece a função de valor desejada, e derivar essa equação exige identificar uma relação recursiva entre os estados atuais e futuros.
Função de Valor de Estado
Como lembrete, aqui está uma função de valor de estado em forma compacta:
vπ(s)=Eπ[Gt∣St=s]Para obter a equação de Bellman para esta função de valor, vamos expandir o lado direito da equação e estabelecer uma relação recursiva:
vπ(s)=Eπ[Gt∣St=s]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s]=Eπ[Rt+1+γk=0∑∞γkRt+k+2∣St=s]=Eπ[Rt+1+γGt+1∣St=s]=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γEπ[Gt+1∣St+1=s′])=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γvπ(s′))A última equação desta cadeia é uma equação de Bellman para a função de valor de estado.
Intuição
Para encontrar o valor de um estado s, deve-se:
- Considerar todas as possíveis ações a que podem ser tomadas a partir deste estado, cada uma ponderada pela probabilidade de escolha sob a política atual π(a∣s);
- Para cada ação a, considerar todos os possíveis próximos estados s′ e recompensas r, ponderados por sua probabilidade p(s′,r∣s,a);
- Para cada um desses resultados, somar a recompensa imediata r recebida mais o valor descontado do próximo estado γvπ(s′).
Ao somar todas essas possibilidades, obtém-se o valor esperado total do estado s sob a política atual.
Função de Valor de Ação
Aqui está uma função de valor de ação em forma compacta:
qπ(s,a)=Eπ[Gt∣St=s,At=a]A dedução da equação de Bellman para esta função é bastante semelhante à anterior:
qπ(s,a)=Eπ[Gt∣St=s,At=a]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s,At=a]=Eπ[Rt+1+γk=0∑∞γkRt+k+2∣St=s,At=a]=Eπ[Rt+1+γGt+1∣St=s,At=a]=s′,r∑p(s′,r∣s,a)(r+γEπ[Gt+1∣St+1=s′])=s′,r∑p(s′,r∣s,a)(r+γa′∑π(a′∣s′)(Eπ[Gt+1∣St+1=s′,At+1=a′]))=s′,r∑p(s′,r∣s,a)(r+γa′∑π(a′∣s′)q(s′,a′))A última equação desta cadeia é uma equação de Bellman para a função de valor de ação.
Intuição
Para encontrar o valor de um par estado-ação (s,a), você:
- Considera todos os possíveis próximos estados s′ e recompensas r, ponderados pela sua probabilidade p(s′,r∣s,a);
- Para cada um desses resultados, soma a recompensa imediata r recebida mais o valor descontado do próximo estado;
- Para calcular o valor do próximo estado s′, para todas as ações a′ possíveis a partir do estado s′, multiplica o valor da ação q(s′,a′) pela probabilidade de escolher a′ no estado s′ sob a política atual π(a′∣s′. Em seguida, soma tudo para obter o valor final.
Ao somar todas essas possibilidades, obtém-se o valor esperado total do par estado-ação (s,a) sob a política atual.
Obrigado pelo seu feedback!
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo
Awesome!
Completion rate improved to 2.7
Equações de Bellman
Deslize para mostrar o menu
Uma equação de Bellman é uma equação funcional que define uma função de valor em forma recursiva.
Para esclarecer a definição:
- Uma equação funcional é uma equação cuja solução é uma função. Para a equação de Bellman, essa solução é a função de valor para a qual a equação foi formulada;
- Uma forma recursiva significa que o valor no estado atual é expresso em termos dos valores nos estados futuros.
Em resumo, resolver a equação de Bellman fornece a função de valor desejada, e derivar essa equação exige identificar uma relação recursiva entre os estados atuais e futuros.
Função de Valor de Estado
Como lembrete, aqui está uma função de valor de estado em forma compacta:
vπ(s)=Eπ[Gt∣St=s]Para obter a equação de Bellman para esta função de valor, vamos expandir o lado direito da equação e estabelecer uma relação recursiva:
vπ(s)=Eπ[Gt∣St=s]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s]=Eπ[Rt+1+γk=0∑∞γkRt+k+2∣St=s]=Eπ[Rt+1+γGt+1∣St=s]=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γEπ[Gt+1∣St+1=s′])=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γvπ(s′))A última equação desta cadeia é uma equação de Bellman para a função de valor de estado.
Intuição
Para encontrar o valor de um estado s, deve-se:
- Considerar todas as possíveis ações a que podem ser tomadas a partir deste estado, cada uma ponderada pela probabilidade de escolha sob a política atual π(a∣s);
- Para cada ação a, considerar todos os possíveis próximos estados s′ e recompensas r, ponderados por sua probabilidade p(s′,r∣s,a);
- Para cada um desses resultados, somar a recompensa imediata r recebida mais o valor descontado do próximo estado γvπ(s′).
Ao somar todas essas possibilidades, obtém-se o valor esperado total do estado s sob a política atual.
Função de Valor de Ação
Aqui está uma função de valor de ação em forma compacta:
qπ(s,a)=Eπ[Gt∣St=s,At=a]A dedução da equação de Bellman para esta função é bastante semelhante à anterior:
qπ(s,a)=Eπ[Gt∣St=s,At=a]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s,At=a]=Eπ[Rt+1+γk=0∑∞γkRt+k+2∣St=s,At=a]=Eπ[Rt+1+γGt+1∣St=s,At=a]=s′,r∑p(s′,r∣s,a)(r+γEπ[Gt+1∣St+1=s′])=s′,r∑p(s′,r∣s,a)(r+γa′∑π(a′∣s′)(Eπ[Gt+1∣St+1=s′,At+1=a′]))=s′,r∑p(s′,r∣s,a)(r+γa′∑π(a′∣s′)q(s′,a′))A última equação desta cadeia é uma equação de Bellman para a função de valor de ação.
Intuição
Para encontrar o valor de um par estado-ação (s,a), você:
- Considera todos os possíveis próximos estados s′ e recompensas r, ponderados pela sua probabilidade p(s′,r∣s,a);
- Para cada um desses resultados, soma a recompensa imediata r recebida mais o valor descontado do próximo estado;
- Para calcular o valor do próximo estado s′, para todas as ações a′ possíveis a partir do estado s′, multiplica o valor da ação q(s′,a′) pela probabilidade de escolher a′ no estado s′ sob a política atual π(a′∣s′. Em seguida, soma tudo para obter o valor final.
Ao somar todas essas possibilidades, obtém-se o valor esperado total do par estado-ação (s,a) sob a política atual.
Obrigado pelo seu feedback!