Bellmans Ekvationer
En Bellman-ekvation är en funktionalekvation som definierar en värdefunktion i rekursiv form.
För att förtydliga definitionen:
- En funktionalekvation är en ekvation vars lösning är en funktion. För Bellman-ekvationen är denna lösning värdefunktionen som ekvationen är formulerad för;
- En rekursiv form innebär att värdet i det aktuella tillståndet uttrycks i termer av värden i framtida tillstånd.
Sammanfattningsvis ger lösningen av Bellman-ekvationen den önskade värdefunktionen, och att härleda denna ekvation kräver att man identifierar en rekursiv relation mellan nuvarande och framtida tillstånd.
Tillståndsvärdefunktion
Som en påminnelse, här är en tillståndsvärdesfunktion i kompakt form:
vπ(s)=Eπ[Gt∣St=s]För att erhålla Bellman-ekvationen för denna värdesfunktion, expanderar vi höger sida av ekvationen och etablerar en rekursiv relation:
vπ(s)=Eπ[Gt∣St=s]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s]=Eπ[Rt+1+γk=0∑∞γkRt+k+2∣St=s]=Eπ[Rt+1+γGt+1∣St=s]=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γEπ[Gt+1∣St+1=s′])=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γvπ(s′))Den sista ekvationen i denna kedja är en Bellman-ekvation för tillståndsvärdesfunktionen.
Intuition
För att bestämma värdet av ett tillstånd s:
- Beakta alla möjliga handlingar a du kan utföra från detta tillstånd, var och en viktad efter sannolikheten att du väljer den handlingen enligt din nuvarande policy π(a∣s);
- För varje handling a, beakta alla möjliga nästa tillstånd s′ och belöningar r, viktade efter deras sannolikhet p(s′,r∣s,a);
- För varje av dessa utfall, ta den omedelbara belöningen r du får plus det diskonterade värdet av nästa tillstånd γvπ(s′).
Genom att summera alla dessa möjligheter får du det totala förväntade värdet av tillståndet s under din nuvarande policy.
Aktionsvärdesfunktion
Här är en aktionsvärdesfunktion i kompakt form:
qπ(s,a)=Eπ[Gt∣St=s,At=a]Härledning av Bellman-ekvationen för denna funktion är mycket lik den föregående:
qπ(s,a)=Eπ[Gt∣St=s,At=a]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s,At=a]=Eπ[Rt+1+γk=0∑∞γkRt+k+2∣St=s,At=a]=Eπ[Rt+1+γGt+1∣St=s,At=a]=s′,r∑p(s′,r∣s,a)(r+γEπ[Gt+1∣St+1=s′])=s′,r∑p(s′,r∣s,a)(r+γa′∑π(a′∣s′)(Eπ[Gt+1∣St+1=s′,At+1=a′]))=s′,r∑p(s′,r∣s,a)(r+γa′∑π(a′∣s′)q(s′,a′))Den sista ekvationen i denna kedja är en Bellman-ekvation för aktionsvärdesfunktionen.
Intuition
För att hitta värdet av ett tillstånd-aktionspar (s,a):
- Beakta alla möjliga nästa tillstånd s′ och belöningar r, viktade efter deras sannolikhet p(s′,r∣s,a);
- För varje av dessa utfall tar du den omedelbara belöningen r du får plus det diskonterade värdet av nästa tillstånd;
- För att beräkna värdet av nästa tillstånd s′, multiplicera för alla möjliga handlingar a′ från tillståndet s′, handlingsvärdet q(s′,a′) med sannolikheten att välja a′ i tillståndet s′ under nuvarande policy π(a′∣s′). Summera sedan allt för att få det slutliga värdet.
Genom att summera alla dessa möjligheter får du det totala förväntade värdet av tillstånd-aktionsparet (s,a) under din nuvarande policy.
Tack för dina kommentarer!
Fråga AI
Fråga AI
Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal
Awesome!
Completion rate improved to 2.7
Bellmans Ekvationer
Svep för att visa menyn
En Bellman-ekvation är en funktionalekvation som definierar en värdefunktion i rekursiv form.
För att förtydliga definitionen:
- En funktionalekvation är en ekvation vars lösning är en funktion. För Bellman-ekvationen är denna lösning värdefunktionen som ekvationen är formulerad för;
- En rekursiv form innebär att värdet i det aktuella tillståndet uttrycks i termer av värden i framtida tillstånd.
Sammanfattningsvis ger lösningen av Bellman-ekvationen den önskade värdefunktionen, och att härleda denna ekvation kräver att man identifierar en rekursiv relation mellan nuvarande och framtida tillstånd.
Tillståndsvärdefunktion
Som en påminnelse, här är en tillståndsvärdesfunktion i kompakt form:
vπ(s)=Eπ[Gt∣St=s]För att erhålla Bellman-ekvationen för denna värdesfunktion, expanderar vi höger sida av ekvationen och etablerar en rekursiv relation:
vπ(s)=Eπ[Gt∣St=s]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s]=Eπ[Rt+1+γk=0∑∞γkRt+k+2∣St=s]=Eπ[Rt+1+γGt+1∣St=s]=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γEπ[Gt+1∣St+1=s′])=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γvπ(s′))Den sista ekvationen i denna kedja är en Bellman-ekvation för tillståndsvärdesfunktionen.
Intuition
För att bestämma värdet av ett tillstånd s:
- Beakta alla möjliga handlingar a du kan utföra från detta tillstånd, var och en viktad efter sannolikheten att du väljer den handlingen enligt din nuvarande policy π(a∣s);
- För varje handling a, beakta alla möjliga nästa tillstånd s′ och belöningar r, viktade efter deras sannolikhet p(s′,r∣s,a);
- För varje av dessa utfall, ta den omedelbara belöningen r du får plus det diskonterade värdet av nästa tillstånd γvπ(s′).
Genom att summera alla dessa möjligheter får du det totala förväntade värdet av tillståndet s under din nuvarande policy.
Aktionsvärdesfunktion
Här är en aktionsvärdesfunktion i kompakt form:
qπ(s,a)=Eπ[Gt∣St=s,At=a]Härledning av Bellman-ekvationen för denna funktion är mycket lik den föregående:
qπ(s,a)=Eπ[Gt∣St=s,At=a]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s,At=a]=Eπ[Rt+1+γk=0∑∞γkRt+k+2∣St=s,At=a]=Eπ[Rt+1+γGt+1∣St=s,At=a]=s′,r∑p(s′,r∣s,a)(r+γEπ[Gt+1∣St+1=s′])=s′,r∑p(s′,r∣s,a)(r+γa′∑π(a′∣s′)(Eπ[Gt+1∣St+1=s′,At+1=a′]))=s′,r∑p(s′,r∣s,a)(r+γa′∑π(a′∣s′)q(s′,a′))Den sista ekvationen i denna kedja är en Bellman-ekvation för aktionsvärdesfunktionen.
Intuition
För att hitta värdet av ett tillstånd-aktionspar (s,a):
- Beakta alla möjliga nästa tillstånd s′ och belöningar r, viktade efter deras sannolikhet p(s′,r∣s,a);
- För varje av dessa utfall tar du den omedelbara belöningen r du får plus det diskonterade värdet av nästa tillstånd;
- För att beräkna värdet av nästa tillstånd s′, multiplicera för alla möjliga handlingar a′ från tillståndet s′, handlingsvärdet q(s′,a′) med sannolikheten att välja a′ i tillståndet s′ under nuvarande policy π(a′∣s′). Summera sedan allt för att få det slutliga värdet.
Genom att summera alla dessa möjligheter får du det totala förväntade värdet av tillstånd-aktionsparet (s,a) under din nuvarande policy.
Tack för dina kommentarer!