Cursusinhoud
Introductie tot Reinforcement Learning
Introductie tot Reinforcement Learning
Beleidverbetering
Beleidsverbetering is een proces waarbij het beleid wordt verbeterd op basis van de huidige schattingen van de waardefunctie.
Net als bij beleidsevaluatie kan beleidsverbetering werken met zowel de toestandswaardefunctie als de actie-waardefunctie. Voor DP-methoden wordt echter de toestandswaardefunctie gebruikt.
Nu je de toestandswaardefunctie kunt schatten voor elk beleid, is een logische volgende stap om te onderzoeken of er beleidsvormen zijn die beter zijn dan het huidige beleid. Een manier om dit te doen, is door te overwegen een andere actie te nemen in een toestand , en vervolgens het huidige beleid te volgen. Als dit bekend voorkomt, komt dat omdat dit vergelijkbaar is met hoe de actie-waardefunctie wordt gedefinieerd:
Als deze nieuwe waarde groter is dan de oorspronkelijke toestandswaarde , duidt dit erop dat het nemen van actie in toestand en vervolgens doorgaan met beleid tot betere uitkomsten leidt dan strikt het volgen van beleid . Aangezien toestanden onafhankelijk zijn, is het optimaal om altijd actie te kiezen wanneer toestand zich voordoet. Daarom kunnen we een verbeterd beleid opstellen, identiek aan behalve dat het actie kiest in toestand , wat superieur zou zijn aan het oorspronkelijke beleid .
Beleidsverbeterstelling
De hierboven beschreven redenering kan worden gegeneraliseerd als de beleidsverbeterstelling:
Het bewijs van deze stelling is relatief eenvoudig en kan worden bereikt door een herhaalde substitutie:
Verbeteringsstrategie
Hoewel het bijwerken van acties voor bepaalde toestanden tot verbeteringen kan leiden, is het effectiever om acties voor alle toestanden gelijktijdig bij te werken. Specifiek, kies voor elke toestand de actie die de actie-waarde maximaliseert:
waarbij (afkorting voor argument van het maximum) een operator is die de waarde van de variabele retourneert die een gegeven functie maximaliseert.
Het resulterende greedy beleid, aangeduid als , voldoet door constructie aan de voorwaarden van het policy improvement theorem, waarmee wordt gegarandeerd dat minstens zo goed is als het oorspronkelijke beleid , en doorgaans beter.
Als even goed is als, maar niet beter dan , dan zijn zowel als optimale beleidsvormen, aangezien hun waarde-functies gelijk zijn en voldoen aan de Bellman optimaliteitsvergelijking:
Bedankt voor je feedback!