Bellmans Ekvationer
En Bellman-ekvation är en funktionell ekvation som definierar en värdefunktion i rekursiv form.
För att förtydliga definitionen:
- En funktionell ekvation är en ekvation vars lösning är en funktion. För Bellman-ekvationen är denna lösning värdefunktionen som ekvationen är formulerad för;
- En rekursiv form innebär att värdet i det aktuella tillståndet uttrycks i termer av värden i framtida tillstånd.
Sammanfattningsvis ger lösningen av Bellman-ekvationen den önskade värdefunktionen, och att härleda denna ekvation kräver att man identifierar en rekursiv relation mellan nuvarande och framtida tillstånd.
Tillståndsvärdefunktion
Som en påminnelse, här är en tillståndsvärdesfunktion i kompakt form:
vπ(s)=Eπ[Gt∣St=s]För att erhålla Bellmans ekvation för denna värdefunktion, utvecklas höger sida av ekvationen och en rekursiv relation etableras:
vπ(s)=Eπ[Gt∣St=s]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s]=Eπ[Rt+1+γk=0∑∞γkRt+k+2∣St=s]=Eπ[Rt+1+γGt+1∣St=s]=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γEπ[Gt+1∣St+1=s′])=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γvπ(s′))Den sista ekvationen i denna kedja är en Bellmans ekvation för tillståndsvärdesfunktionen.
Intuition
För att bestämma värdet av ett tillstånd s:
- Beakta alla möjliga handlingar a som kan utföras från detta tillstånd, där varje handling vägs efter sannolikheten att den väljs enligt den aktuella policyn π(a∣s);
- För varje handling a, beaktas alla möjliga nästa tillstånd s′ och belöningar r, viktade efter deras sannolikhet p(s′,r∣s,a);
- För varje utfall summeras den omedelbara belöningen r med det diskonterade värdet av nästa tillstånd γvπ(s′).
Genom att summera alla dessa möjligheter erhålls det totala förväntade värdet av tillståndet s under den aktuella policyn.
Aktionsvärdesfunktion
Här är en aktionsvärdesfunktion i kompakt form:
qπ(s,a)=Eπ[Gt∣St=s,At=a]Härledning av Bellman-ekvationen för denna funktion liknar den föregående:
qπ(s,a)=Eπ[Gt∣St=s,At=a]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s,At=a]=Eπ[Rt+1+γk=0∑∞γkRt+k+2∣St=s,At=a]=Eπ[Rt+1+γGt+1∣St=s,At=a]=s′,r∑p(s′,r∣s,a)(r+γEπ[Gt+1∣St+1=s′])=s′,r∑p(s′,r∣s,a)(r+γa′∑π(a′∣s′)(Eπ[Gt+1∣St+1=s′,At+1=a′]))=s′,r∑p(s′,r∣s,a)(r+γa′∑π(a′∣s′)q(s′,a′))Den sista ekvationen i denna kedja är en Bellman-ekvation för aktionsvärdesfunktionen.
Intuition
För att hitta värdet av ett tillstånds- och åtgärdspar (s,a):
- Beakta alla möjliga nästa tillstånd s′ och belöningar r, viktade efter deras sannolikhet p(s′,r∣s,a);
- För varje av dessa utfall tar du den omedelbara belöningen r du får plus det diskonterade värdet av nästa tillstånd;
- För att beräkna värdet av nästa tillstånd s′, multiplicera för alla möjliga åtgärder a′ från tillståndet s′ åtgärdsvärdet q(s′,a′) med sannolikheten att välja a′ i tillstånd s′ under nuvarande policy π(a′∣s′). Summera sedan allt för att få slutvärdet.
Genom att summera alla dessa möjligheter får du det totala förväntade värdet av tillstånds- och åtgärdsparet (s,a) under din nuvarande policy.
Tack för dina kommentarer!
Fråga AI
Fråga AI
Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal
Can you explain the difference between the state value function and the action value function?
How does the Bellman equation help in reinforcement learning?
Can you provide a simple example illustrating the Bellman equation?
Awesome!
Completion rate improved to 2.7
Bellmans Ekvationer
Svep för att visa menyn
En Bellman-ekvation är en funktionell ekvation som definierar en värdefunktion i rekursiv form.
För att förtydliga definitionen:
- En funktionell ekvation är en ekvation vars lösning är en funktion. För Bellman-ekvationen är denna lösning värdefunktionen som ekvationen är formulerad för;
- En rekursiv form innebär att värdet i det aktuella tillståndet uttrycks i termer av värden i framtida tillstånd.
Sammanfattningsvis ger lösningen av Bellman-ekvationen den önskade värdefunktionen, och att härleda denna ekvation kräver att man identifierar en rekursiv relation mellan nuvarande och framtida tillstånd.
Tillståndsvärdefunktion
Som en påminnelse, här är en tillståndsvärdesfunktion i kompakt form:
vπ(s)=Eπ[Gt∣St=s]För att erhålla Bellmans ekvation för denna värdefunktion, utvecklas höger sida av ekvationen och en rekursiv relation etableras:
vπ(s)=Eπ[Gt∣St=s]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s]=Eπ[Rt+1+γk=0∑∞γkRt+k+2∣St=s]=Eπ[Rt+1+γGt+1∣St=s]=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γEπ[Gt+1∣St+1=s′])=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γvπ(s′))Den sista ekvationen i denna kedja är en Bellmans ekvation för tillståndsvärdesfunktionen.
Intuition
För att bestämma värdet av ett tillstånd s:
- Beakta alla möjliga handlingar a som kan utföras från detta tillstånd, där varje handling vägs efter sannolikheten att den väljs enligt den aktuella policyn π(a∣s);
- För varje handling a, beaktas alla möjliga nästa tillstånd s′ och belöningar r, viktade efter deras sannolikhet p(s′,r∣s,a);
- För varje utfall summeras den omedelbara belöningen r med det diskonterade värdet av nästa tillstånd γvπ(s′).
Genom att summera alla dessa möjligheter erhålls det totala förväntade värdet av tillståndet s under den aktuella policyn.
Aktionsvärdesfunktion
Här är en aktionsvärdesfunktion i kompakt form:
qπ(s,a)=Eπ[Gt∣St=s,At=a]Härledning av Bellman-ekvationen för denna funktion liknar den föregående:
qπ(s,a)=Eπ[Gt∣St=s,At=a]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s,At=a]=Eπ[Rt+1+γk=0∑∞γkRt+k+2∣St=s,At=a]=Eπ[Rt+1+γGt+1∣St=s,At=a]=s′,r∑p(s′,r∣s,a)(r+γEπ[Gt+1∣St+1=s′])=s′,r∑p(s′,r∣s,a)(r+γa′∑π(a′∣s′)(Eπ[Gt+1∣St+1=s′,At+1=a′]))=s′,r∑p(s′,r∣s,a)(r+γa′∑π(a′∣s′)q(s′,a′))Den sista ekvationen i denna kedja är en Bellman-ekvation för aktionsvärdesfunktionen.
Intuition
För att hitta värdet av ett tillstånds- och åtgärdspar (s,a):
- Beakta alla möjliga nästa tillstånd s′ och belöningar r, viktade efter deras sannolikhet p(s′,r∣s,a);
- För varje av dessa utfall tar du den omedelbara belöningen r du får plus det diskonterade värdet av nästa tillstånd;
- För att beräkna värdet av nästa tillstånd s′, multiplicera för alla möjliga åtgärder a′ från tillståndet s′ åtgärdsvärdet q(s′,a′) med sannolikheten att välja a′ i tillstånd s′ under nuvarande policy π(a′∣s′). Summera sedan allt för att få slutvärdet.
Genom att summera alla dessa möjligheter får du det totala förväntade värdet av tillstånds- och åtgärdsparet (s,a) under din nuvarande policy.
Tack för dina kommentarer!