Bellman-Vergelijkingen
Een Bellman-vergelijking is een functionele vergelijking die een waardefunctie definieert in recursieve vorm.
Ter verduidelijking van de definitie:
- Een functionele vergelijking is een vergelijking waarvan de oplossing een functie is. Voor de Bellman-vergelijking is deze oplossing de waardefunctie waarvoor de vergelijking is opgesteld;
- Een recursieve vorm betekent dat de waarde in de huidige toestand wordt uitgedrukt in termen van waarden in toekomstige toestanden.
Kortom, het oplossen van de Bellman-vergelijking levert de gewenste waardefunctie op, en het afleiden van deze vergelijking vereist het identificeren van een recursieve relatie tussen huidige en toekomstige toestanden.
Toestandswaardefunctie
Ter herinnering, hier is een toestandswaardefunctie in compacte vorm:
vπ(s)=Eπ[Gt∣St=s]Om de Bellman-vergelijking voor deze waardefunctie te verkrijgen, breiden we de rechterkant van de vergelijking uit en stellen we een recursieve relatie op:
vπ(s)=Eπ[Gt∣St=s]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s]=Eπ[Rt+1+γk=0∑∞γkRt+k+2∣St=s]=Eπ[Rt+1+γGt+1∣St=s]=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γEπ[Gt+1∣St+1=s′])=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γvπ(s′))De laatste vergelijking in deze reeks is een Bellman-vergelijking voor de toestandswaardefunctie.
Intuïtie
Om de waarde van een toestand s te bepalen:
- Overweeg alle mogelijke acties a die je vanuit deze toestand kunt nemen, elk gewogen naar de kans dat je die actie kiest onder je huidige beleid π(a∣s);
- Voor elke actie a overweeg je alle mogelijke volgende toestanden s′ en beloningen r, gewogen naar hun waarschijnlijkheid p(s′,r∣s,a);
- Voor elk van deze uitkomsten neem je de directe beloning r die je ontvangt plus de gedisconteerde waarde van de volgende toestand γvπ(s′).
Door al deze mogelijkheden bij elkaar op te tellen, verkrijg je de totale verwachte waarde van de toestand s onder je huidige beleid.
Actiewaarde-functie
Hier is een actiewaarde-functie in compacte vorm:
qπ(s,a)=Eπ[Gt∣St=s,At=a]De afleiding van de Bellman-vergelijking voor deze functie is vergelijkbaar met de vorige:
qπ(s,a)=Eπ[Gt∣St=s,At=a]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s,At=a]=Eπ[Rt+1+γk=0∑∞γkRt+k+2∣St=s,At=a]=Eπ[Rt+1+γGt+1∣St=s,At=a]=s′,r∑p(s′,r∣s,a)(r+γEπ[Gt+1∣St+1=s′])=s′,r∑p(s′,r∣s,a)(r+γa′∑π(a′∣s′)(Eπ[Gt+1∣St+1=s′,At+1=a′]))=s′,r∑p(s′,r∣s,a)(r+γa′∑π(a′∣s′)q(s′,a′))De laatste vergelijking in deze reeks is een Bellman-vergelijking voor de actiewaarde-functie.
Intuïtie
Om de waarde van een toestand-actie-paar (s,a) te bepalen:
- Overweeg alle mogelijke volgende toestanden s′ en beloningen r, gewogen naar hun waarschijnlijkheid p(s′,r∣s,a);
- Voor elk van deze uitkomsten neem je de directe beloning r die je ontvangt plus de gedisconteerde waarde van de volgende toestand;
- Om de waarde van de volgende toestand s′ te berekenen, vermenigvuldig je voor alle acties a′ mogelijk vanuit toestand s′ de actie-waarde q(s′,a′) met de kans om a′ te kiezen in toestand s′ onder het huidige beleid π(a′∣s′. Tel vervolgens alles op om de uiteindelijke waarde te verkrijgen.
Door al deze mogelijkheden bij elkaar op te tellen, krijg je de totale verwachte waarde van het toestand-actie-paar (s,a) onder je huidige beleid.
Bedankt voor je feedback!
Vraag AI
Vraag AI
Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.
Awesome!
Completion rate improved to 2.7
Bellman-Vergelijkingen
Veeg om het menu te tonen
Een Bellman-vergelijking is een functionele vergelijking die een waardefunctie definieert in recursieve vorm.
Ter verduidelijking van de definitie:
- Een functionele vergelijking is een vergelijking waarvan de oplossing een functie is. Voor de Bellman-vergelijking is deze oplossing de waardefunctie waarvoor de vergelijking is opgesteld;
- Een recursieve vorm betekent dat de waarde in de huidige toestand wordt uitgedrukt in termen van waarden in toekomstige toestanden.
Kortom, het oplossen van de Bellman-vergelijking levert de gewenste waardefunctie op, en het afleiden van deze vergelijking vereist het identificeren van een recursieve relatie tussen huidige en toekomstige toestanden.
Toestandswaardefunctie
Ter herinnering, hier is een toestandswaardefunctie in compacte vorm:
vπ(s)=Eπ[Gt∣St=s]Om de Bellman-vergelijking voor deze waardefunctie te verkrijgen, breiden we de rechterkant van de vergelijking uit en stellen we een recursieve relatie op:
vπ(s)=Eπ[Gt∣St=s]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s]=Eπ[Rt+1+γk=0∑∞γkRt+k+2∣St=s]=Eπ[Rt+1+γGt+1∣St=s]=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γEπ[Gt+1∣St+1=s′])=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γvπ(s′))De laatste vergelijking in deze reeks is een Bellman-vergelijking voor de toestandswaardefunctie.
Intuïtie
Om de waarde van een toestand s te bepalen:
- Overweeg alle mogelijke acties a die je vanuit deze toestand kunt nemen, elk gewogen naar de kans dat je die actie kiest onder je huidige beleid π(a∣s);
- Voor elke actie a overweeg je alle mogelijke volgende toestanden s′ en beloningen r, gewogen naar hun waarschijnlijkheid p(s′,r∣s,a);
- Voor elk van deze uitkomsten neem je de directe beloning r die je ontvangt plus de gedisconteerde waarde van de volgende toestand γvπ(s′).
Door al deze mogelijkheden bij elkaar op te tellen, verkrijg je de totale verwachte waarde van de toestand s onder je huidige beleid.
Actiewaarde-functie
Hier is een actiewaarde-functie in compacte vorm:
qπ(s,a)=Eπ[Gt∣St=s,At=a]De afleiding van de Bellman-vergelijking voor deze functie is vergelijkbaar met de vorige:
qπ(s,a)=Eπ[Gt∣St=s,At=a]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s,At=a]=Eπ[Rt+1+γk=0∑∞γkRt+k+2∣St=s,At=a]=Eπ[Rt+1+γGt+1∣St=s,At=a]=s′,r∑p(s′,r∣s,a)(r+γEπ[Gt+1∣St+1=s′])=s′,r∑p(s′,r∣s,a)(r+γa′∑π(a′∣s′)(Eπ[Gt+1∣St+1=s′,At+1=a′]))=s′,r∑p(s′,r∣s,a)(r+γa′∑π(a′∣s′)q(s′,a′))De laatste vergelijking in deze reeks is een Bellman-vergelijking voor de actiewaarde-functie.
Intuïtie
Om de waarde van een toestand-actie-paar (s,a) te bepalen:
- Overweeg alle mogelijke volgende toestanden s′ en beloningen r, gewogen naar hun waarschijnlijkheid p(s′,r∣s,a);
- Voor elk van deze uitkomsten neem je de directe beloning r die je ontvangt plus de gedisconteerde waarde van de volgende toestand;
- Om de waarde van de volgende toestand s′ te berekenen, vermenigvuldig je voor alle acties a′ mogelijk vanuit toestand s′ de actie-waarde q(s′,a′) met de kans om a′ te kiezen in toestand s′ onder het huidige beleid π(a′∣s′. Tel vervolgens alles op om de uiteindelijke waarde te verkrijgen.
Door al deze mogelijkheden bij elkaar op te tellen, krijg je de totale verwachte waarde van het toestand-actie-paar (s,a) onder je huidige beleid.
Bedankt voor je feedback!