Leer Gegeneraliseerde Beleidsiteratie | Dynamisch Programmeren

Veeg om het menu te tonen

In eerdere hoofdstukken heb je geleerd over beleidsevaluatie en beleidsverbetering. Deze processen vullen elkaar aan en worden op natuurlijke wijze gecombineerd in een raamwerk dat bekend staat als gegeneraliseerde beleidsiteratie.

Definitie

Gegeneraliseerde beleidsiteratie (GPI) is een raamwerk waarin beleidsevaluatie en beleidsverbetering iteratief met elkaar interageren met als gemeenschappelijk doel het bepalen van een optimaal beleid.

De meeste reinforcement learning-methoden kunnen worden beschreven binnen het raamwerk van GPI. De belangrijkste verschillen tussen deze methoden komen voort uit de specifieke implementaties van beleidsevaluatie en beleidsverbetering, evenals de aard van hun interacties.

Interactie tussen twee processen

Beleidswaardering en beleidsverbetering kunnen zowel als coöperatieve als competitieve processen worden beschouwd, afhankelijk van het perspectief:

Coöperatief: beide processen werken naar een gemeenschappelijk doel—het vinden van het optimale beleid en de waarde-functie. Beleidswaardering schat de waarde-functie voor een gegeven beleid, terwijl beleidsverbetering het beleid verfijnt op basis van deze schattingen;
Competitief: elk proces heeft tegenstrijdige doelstellingen. Beleidswaardering streeft ernaar om de waarde-functie voor het huidige beleid nauwkeurig te schatten, waardoor het beleid vaak niet langer hebzuchtig is. Omgekeerd past beleidsverbetering het beleid aan om hebzuchtig te zijn ten opzichte van de huidige waarde-functie schattingen, waardoor deze schattingen doorgaans onjuist worden. Deze voortdurende wisselwerking gaat door totdat zowel het beleid als de waarde-functie convergeren naar hun optimale vormen.

Samenvatting

Generalized policy iteration is een nuttig raamwerk om te begrijpen hoe verschillende reinforcement learning-methoden het oplossen van MDP's benaderen. In de komende hoofdstukken wordt onderzocht hoe deze ideeën kunnen worden toegepast om twee essentiële DP-methoden te creëren: policy iteration en value iteration.

Was alles duidelijk?

Bedankt voor je feedback!

Sectie 3. Hoofdstuk 6

Vraag AI

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Sectie 3. Hoofdstuk 6