Bellmans Ekvationer
En Bellman-ekvation är en funktionalekvation som definierar en värdefunktion i rekursiv form.
För att förtydliga definitionen:
- En funktionalekvation är en ekvation vars lösning är en funktion. För Bellman-ekvationen är denna lösning värdefunktionen som ekvationen formulerats för;
- En rekursiv form innebär att värdet i det aktuella tillståndet uttrycks i termer av värden i framtida tillstånd.
Sammanfattningsvis ger lösningen av Bellman-ekvationen den önskade värdefunktionen, och härledning av denna ekvation kräver att man identifierar en rekursiv relation mellan nuvarande och framtida tillstånd.
Tillståndsvärdefunktion
Som en påminnelse, här är en tillståndsvärdesfunktion i kompakt form:
vπ(s)=Eπ[Gt∣St=s]För att erhålla Bellmans ekvation för denna värdesfunktion, expanderas höger sida av ekvationen och en rekursiv relation etableras:
vπ(s)=Eπ[Gt∣St=s]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s]=Eπ[Rt+1+γk=0∑∞γkRt+k+2∣St=s]=Eπ[Rt+1+γGt+1∣St=s]=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γEπ[Gt+1∣St+1=s′])=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γvπ(s′))Den sista ekvationen i denna kedja är en Bellmans ekvation för tillståndsvärdesfunktionen.
Intuition
För att hitta värdet av ett tillstånd s:
- Beakta alla möjliga handlingar a som kan utföras från detta tillstånd, var och en viktad efter sannolikheten att välja den handlingen enligt den aktuella policyn π(a∣s);
- För varje handling a, beakta alla möjliga nästa tillstånd s′ och belöningar r, viktade efter deras sannolikhet p(s′,r∣s,a);
- För varje av dessa utfall, ta den omedelbara belöningen r samt det diskonterade värdet av nästa tillstånd γvπ(s′).
Genom att summera alla dessa möjligheter erhålls det totala förväntade värdet av tillståndet s under den aktuella policyn.
Aktionsvärdesfunktion
Här är en aktionsvärdesfunktion i kompakt form:
qπ(s,a)=Eπ[Gt∣St=s,At=a]Härledning av Bellmans ekvation för denna funktion är ganska lik den föregående:
qπ(s,a)=Eπ[Gt∣St=s,At=a]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s,At=a]=Eπ[Rt+1+γk=0∑∞γkRt+k+2∣St=s,At=a]=Eπ[Rt+1+γGt+1∣St=s,At=a]=s′,r∑p(s′,r∣s,a)(r+γEπ[Gt+1∣St+1=s′])=s′,r∑p(s′,r∣s,a)(r+γa′∑π(a′∣s′)(Eπ[Gt+1∣St+1=s′,At+1=a′]))=s′,r∑p(s′,r∣s,a)(r+γa′∑π(a′∣s′)q(s′,a′))Den sista ekvationen i denna kedja är en Bellmans ekvation för aktionsvärdesfunktionen.
Intuition
För att hitta värdet av ett tillstånds-aktionspar (s,a):
- Beakta alla möjliga nästa tillstånd s′ och belöningar r, viktade efter deras sannolikhet p(s′,r∣s,a);
- För varje av dessa utfall tar du den omedelbara belöningen r du får plus det diskonterade värdet av nästa tillstånd;
- För att beräkna värdet av nästa tillstånd s′, multiplicera för alla möjliga handlingar a′ från tillståndet s′, handlingsvärdet q(s′,a′) med sannolikheten att välja a′ i tillståndet s′ enligt nuvarande policy π(a′∣s′). Summera sedan allt för att få det slutliga värdet.
Genom att summera alla dessa möjligheter får du det totala förväntade värdet av tillstånds-aktionsparet (s,a) under din nuvarande policy.
Tack för dina kommentarer!
Fråga AI
Fråga AI
Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal
Awesome!
Completion rate improved to 2.7
Bellmans Ekvationer
Svep för att visa menyn
En Bellman-ekvation är en funktionalekvation som definierar en värdefunktion i rekursiv form.
För att förtydliga definitionen:
- En funktionalekvation är en ekvation vars lösning är en funktion. För Bellman-ekvationen är denna lösning värdefunktionen som ekvationen formulerats för;
- En rekursiv form innebär att värdet i det aktuella tillståndet uttrycks i termer av värden i framtida tillstånd.
Sammanfattningsvis ger lösningen av Bellman-ekvationen den önskade värdefunktionen, och härledning av denna ekvation kräver att man identifierar en rekursiv relation mellan nuvarande och framtida tillstånd.
Tillståndsvärdefunktion
Som en påminnelse, här är en tillståndsvärdesfunktion i kompakt form:
vπ(s)=Eπ[Gt∣St=s]För att erhålla Bellmans ekvation för denna värdesfunktion, expanderas höger sida av ekvationen och en rekursiv relation etableras:
vπ(s)=Eπ[Gt∣St=s]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s]=Eπ[Rt+1+γk=0∑∞γkRt+k+2∣St=s]=Eπ[Rt+1+γGt+1∣St=s]=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γEπ[Gt+1∣St+1=s′])=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γvπ(s′))Den sista ekvationen i denna kedja är en Bellmans ekvation för tillståndsvärdesfunktionen.
Intuition
För att hitta värdet av ett tillstånd s:
- Beakta alla möjliga handlingar a som kan utföras från detta tillstånd, var och en viktad efter sannolikheten att välja den handlingen enligt den aktuella policyn π(a∣s);
- För varje handling a, beakta alla möjliga nästa tillstånd s′ och belöningar r, viktade efter deras sannolikhet p(s′,r∣s,a);
- För varje av dessa utfall, ta den omedelbara belöningen r samt det diskonterade värdet av nästa tillstånd γvπ(s′).
Genom att summera alla dessa möjligheter erhålls det totala förväntade värdet av tillståndet s under den aktuella policyn.
Aktionsvärdesfunktion
Här är en aktionsvärdesfunktion i kompakt form:
qπ(s,a)=Eπ[Gt∣St=s,At=a]Härledning av Bellmans ekvation för denna funktion är ganska lik den föregående:
qπ(s,a)=Eπ[Gt∣St=s,At=a]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s,At=a]=Eπ[Rt+1+γk=0∑∞γkRt+k+2∣St=s,At=a]=Eπ[Rt+1+γGt+1∣St=s,At=a]=s′,r∑p(s′,r∣s,a)(r+γEπ[Gt+1∣St+1=s′])=s′,r∑p(s′,r∣s,a)(r+γa′∑π(a′∣s′)(Eπ[Gt+1∣St+1=s′,At+1=a′]))=s′,r∑p(s′,r∣s,a)(r+γa′∑π(a′∣s′)q(s′,a′))Den sista ekvationen i denna kedja är en Bellmans ekvation för aktionsvärdesfunktionen.
Intuition
För att hitta värdet av ett tillstånds-aktionspar (s,a):
- Beakta alla möjliga nästa tillstånd s′ och belöningar r, viktade efter deras sannolikhet p(s′,r∣s,a);
- För varje av dessa utfall tar du den omedelbara belöningen r du får plus det diskonterade värdet av nästa tillstånd;
- För att beräkna värdet av nästa tillstånd s′, multiplicera för alla möjliga handlingar a′ från tillståndet s′, handlingsvärdet q(s′,a′) med sannolikheten att välja a′ i tillståndet s′ enligt nuvarande policy π(a′∣s′). Summera sedan allt för att få det slutliga värdet.
Genom att summera alla dessa möjligheter får du det totala förväntade värdet av tillstånds-aktionsparet (s,a) under din nuvarande policy.
Tack för dina kommentarer!