Cursusinhoud
Introductie tot Reinforcement Learning
Introductie tot Reinforcement Learning
Bellman-Vergelijkingen
Een Bellman-vergelijking is een functionele vergelijking die een waardefunctie definieert in recursieve vorm.
Ter verduidelijking van de definitie:
- Een functionele vergelijking is een vergelijking waarvan de oplossing een functie is. Voor de Bellman-vergelijking is deze oplossing de waardefunctie waarvoor de vergelijking is opgesteld;
- Een recursieve vorm betekent dat de waarde in de huidige toestand wordt uitgedrukt in termen van waarden in toekomstige toestanden.
Kortom, het oplossen van de Bellman-vergelijking levert de gewenste waardefunctie op, en het afleiden van deze vergelijking vereist het identificeren van een recursieve relatie tussen huidige en toekomstige toestanden.
Toestandswaardefunctie
Ter herinnering, hier is een toestandswaardefunctie in compacte vorm:
Om de Bellman-vergelijking voor deze waardefunctie te verkrijgen, breiden we de rechterkant van de vergelijking uit en stellen we een recursieve relatie op:
De laatste vergelijking in deze reeks is een Bellman-vergelijking voor de toestandswaardefunctie.
Intuïtie
Om de waarde van een toestand te bepalen:
- Overweeg alle mogelijke acties die je vanuit deze toestand kunt nemen, elk gewogen naar de kans dat je die actie kiest onder je huidige beleid ;
- Voor elke actie overweeg je alle mogelijke volgende toestanden en beloningen , gewogen naar hun waarschijnlijkheid ;
- Voor elk van deze uitkomsten neem je de directe beloning die je ontvangt plus de gedisconteerde waarde van de volgende toestand .
Door al deze mogelijkheden bij elkaar op te tellen, verkrijg je de totale verwachte waarde van de toestand onder je huidige beleid.
Actiewaarde-functie
Hier is een actiewaarde-functie in compacte vorm:
De afleiding van de Bellman-vergelijking voor deze functie is vergelijkbaar met de vorige:
De laatste vergelijking in deze reeks is een Bellman-vergelijking voor de actiewaarde-functie.
Intuïtie
Om de waarde van een toestand-actie-paar te bepalen:
- Overweeg alle mogelijke volgende toestanden en beloningen , gewogen naar hun waarschijnlijkheid ;
- Voor elk van deze uitkomsten neem je de directe beloning die je ontvangt plus de gedisconteerde waarde van de volgende toestand;
- Om de waarde van de volgende toestand te berekenen, vermenigvuldig je voor alle acties mogelijk vanuit toestand de actie-waarde met de kans om te kiezen in toestand onder het huidige beleid . Tel vervolgens alles op om de uiteindelijke waarde te verkrijgen.
Door al deze mogelijkheden bij elkaar op te tellen, krijg je de totale verwachte waarde van het toestand-actie-paar onder je huidige beleid.
Bedankt voor je feedback!