Cursusinhoud
Introductie tot Reinforcement Learning
Introductie tot Reinforcement Learning
Gegeneraliseerde Beleidsiteratie
In eerdere hoofdstukken heb je geleerd over beleidsevaluatie en beleidsverbetering. Deze processen vullen elkaar aan en worden op natuurlijke wijze gecombineerd in een raamwerk dat bekend staat als gegeneraliseerde beleidsiteratie.
Gegeneraliseerde beleidsiteratie (GPI) is een raamwerk waarin beleidsevaluatie en beleidsverbetering iteratief met elkaar interageren met als gemeenschappelijk doel het bepalen van een optimaal beleid.
De meeste reinforcement learning-methoden kunnen worden beschreven binnen het raamwerk van GPI. De belangrijkste verschillen tussen deze methoden komen voort uit de specifieke implementaties van beleidsevaluatie en beleidsverbetering, evenals de aard van hun interacties.
Interactie tussen twee processen
Beleidswaardering en beleidsverbetering kunnen zowel als coöperatieve als competitieve processen worden beschouwd, afhankelijk van het perspectief:
- Coöperatief: beide processen werken naar een gemeenschappelijk doel—het vinden van het optimale beleid en de waarde-functie. Beleidswaardering schat de waarde-functie voor een gegeven beleid, terwijl beleidsverbetering het beleid verfijnt op basis van deze schattingen;
- Competitief: elk proces heeft tegenstrijdige doelstellingen. Beleidswaardering streeft ernaar om de waarde-functie voor het huidige beleid nauwkeurig te schatten, waardoor het beleid vaak niet langer hebzuchtig is. Omgekeerd past beleidsverbetering het beleid aan om hebzuchtig te zijn ten opzichte van de huidige waarde-functie schattingen, waardoor deze schattingen doorgaans onnauwkeurig worden. Deze voortdurende wisselwerking gaat door totdat zowel het beleid als de waarde-functie convergeren naar hun optimale vormen.
Samenvatting
Algemene beleidsiteratie is een nuttig kader om te begrijpen hoe verschillende reinforcement learning-methoden het oplossen van MDP's benaderen. In de komende hoofdstukken wordt onderzocht hoe deze ideeën kunnen worden toegepast om twee essentiële DP-methoden te creëren: beleidsiteratie en waarde-iteratie.
Bedankt voor je feedback!