Bellmans Ekvationer
Svep för att visa menyn
En Bellman-ekvation är en funktionalekvation som definierar en värdefunktion i rekursiv form.
För att förtydliga definitionen:
- En funktionalekvation är en ekvation vars lösning är en funktion. För Bellman-ekvationen är denna lösning värdefunktionen som ekvationen formulerats för;
- En rekursiv form innebär att värdet i det aktuella tillståndet uttrycks i termer av värden i framtida tillstånd.
Sammanfattningsvis ger lösningen av Bellman-ekvationen den önskade värdefunktionen, och härledning av denna ekvation kräver att man identifierar en rekursiv relation mellan nuvarande och framtida tillstånd.
Tillståndsvärdefunktion
Som en påminnelse, här är en tillståndsvärdesfunktion i kompakt form:
vπ(s)=Eπ[Gt∣St=s]För att erhålla Bellmans ekvation för denna värdesfunktion, expanderas höger sida av ekvationen och en rekursiv relation etableras:
vπ(s)=Eπ[Gt∣St=s]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s]=Eπ[Rt+1+γk=0∑∞γkRt+k+2∣St=s]=Eπ[Rt+1+γGt+1∣St=s]=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γEπ[Gt+1∣St+1=s′])=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γvπ(s′))Den sista ekvationen i denna kedja är en Bellmans ekvation för tillståndsvärdesfunktionen.
Intuition
För att hitta värdet av ett tillstånd s:
- Beakta alla möjliga handlingar a som kan utföras från detta tillstånd, var och en viktad efter sannolikheten att välja den handlingen enligt den aktuella policyn π(a∣s);
- För varje handling a, beakta alla möjliga nästa tillstånd s′ och belöningar r, viktade efter deras sannolikhet p(s′,r∣s,a);
- För varje av dessa utfall, ta den omedelbara belöningen r samt det diskonterade värdet av nästa tillstånd γvπ(s′).
Genom att summera alla dessa möjligheter erhålls det totala förväntade värdet av tillståndet s under den aktuella policyn.
Aktionsvärdesfunktion
Här är en aktionsvärdesfunktion i kompakt form:
qπ(s,a)=Eπ[Gt∣St=s,At=a]Härledning av Bellmans ekvation för denna funktion är ganska lik den föregående:
qπ(s,a)=Eπ[Gt∣St=s,At=a]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s,At=a]=Eπ[Rt+1+γk=0∑∞γkRt+k+2∣St=s,At=a]=Eπ[Rt+1+γGt+1∣St=s,At=a]=s′,r∑p(s′,r∣s,a)(r+γEπ[Gt+1∣St+1=s′])=s′,r∑p(s′,r∣s,a)(r+γa′∑π(a′∣s′)(Eπ[Gt+1∣St+1=s′,At+1=a′]))=s′,r∑p(s′,r∣s,a)(r+γa′∑π(a′∣s′)q(s′,a′))Den sista ekvationen i denna kedja är en Bellmans ekvation för aktionsvärdesfunktionen.
Intuition
För att hitta värdet av ett tillstånds-aktionspar (s,a):
- Beakta alla möjliga nästa tillstånd s′ och belöningar r, viktade efter deras sannolikhet p(s′,r∣s,a);
- För varje av dessa utfall tar du den omedelbara belöningen r du får plus det diskonterade värdet av nästa tillstånd;
- För att beräkna värdet av nästa tillstånd s′, multiplicera för alla möjliga handlingar a′ från tillståndet s′, handlingsvärdet q(s′,a′) med sannolikheten att välja a′ i tillståndet s′ enligt nuvarande policy π(a′∣s′). Summera sedan allt för att få det slutliga värdet.
Genom att summera alla dessa möjligheter får du det totala förväntade värdet av tillstånds-aktionsparet (s,a) under din nuvarande policy.
Tack för dina kommentarer!
Fråga AI
Fråga AI
Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal