Leer Beleidverbetering | Dynamisch Programmeren

Definitie

Beleidsverbetering is een proces waarbij het beleid wordt verbeterd op basis van de huidige schattingen van de waardefunctie.

Opmerking

Net als bij beleidsevaluatie kan beleidsverbetering werken met zowel de toestandswaardefunctie als de actie-waardefunctie. Voor DP-methoden wordt echter de toestandswaardefunctie gebruikt.

Nu het mogelijk is om de toestandswaardefunctie te schatten voor elk beleid, is een logische volgende stap om te onderzoeken of er beleid bestaat dat beter is dan het huidige. Een manier om dit te doen is door een andere actie $a$ te overwegen in een toestand $s$ , en vervolgens het huidige beleid te volgen. Dit klinkt wellicht bekend, omdat dit vergelijkbaar is met de definitie van de actie-waardefunctie:

q_\pi(s, a) = \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_\pi(s')\Bigr)

Als deze nieuwe waarde groter is dan de oorspronkelijke toestandswaarde $v_\pi(s)$ , duidt dit erop dat het nemen van actie $a$ in toestand $s$ en vervolgens doorgaan met beleid $\pi$ tot betere resultaten leidt dan het strikt volgen van beleid $\pi$ . Aangezien toestanden onafhankelijk zijn, is het optimaal om altijd actie $a$ te kiezen wanneer toestand $s$ zich voordoet. Daarom kunnen we een verbeterd beleid $\pi'$ opstellen, identiek aan $\pi$ behalve dat het actie $a$ kiest in toestand $s$ , wat superieur zou zijn aan het oorspronkelijke beleid $\pi$ .

Beleidsverbeteringsstelling

De hierboven beschreven redenering kan worden gegeneraliseerd als de beleidsverbeteringsstelling:

\begin{aligned} &q_\pi(s, \pi'(s)) \ge v_\pi(s) \qquad &\forall s \in S\\ \implies &v_{\pi'}(s) \ge v_\pi(s) \qquqquad &\forall s \in S \end{aligned}

Het bewijs van deze stelling is relatief eenvoudig en kan worden bereikt door een herhaalde substitutie:

\def\E{\operatorname{\mathbb{E}}} \begin{aligned} v_\pi(s) &\le q_\pi(s, \pi'(s))\\ &= \E_{\pi'}[R_{t+1} + \gamma v_\pi(S_{t+1}) | S_t = s]\\ &\le \E_{\pi'}[R_{t+1} + \gamma q_\pi(S_{t+1}, \pi'(S_{t+1})) | S_t = s]\\ &= \E_{\pi'}[R_{t+1} + \gamma \E_{\pi'}[R_{t+2} + \gamma v_\pi(S_{t+2})] | S_t = s]\\ &= \E_{\pi'}[R_{t+1} + \gamma R_{t+2} + \gamma^2 v_\pi(S_{t+2}) | S_t = s]\\ &...\\ &\le \E_{\pi'}[R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... | S_t = s]\\ &= v_{\pi'}(s) \end{aligned}

Verbeteringsstrategie

Hoewel het bijwerken van acties voor bepaalde toestanden tot verbeteringen kan leiden, is het effectiever om acties voor alle toestanden gelijktijdig bij te werken. Specifiek, voor elke toestand $s$ , kies de actie $a$ die de actie-waarde $q_\pi(s, a)$ maximaliseert:

\begin{aligned} \pi'(s) &\gets \argmax_a q_\pi(s, a)\\ &\gets \argmax_a \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_\pi(s')\Bigr) \end{aligned}

waarbij $\argmax$ (afkorting voor argument van het maximum) een operator is die de waarde van de variabele retourneert die een gegeven functie maximaliseert.

Het resulterende greedy-beleid, aangeduid met $\pi'$ , voldoet door constructie aan de voorwaarden van het policy improvement theorem, waarmee wordt gegarandeerd dat $\pi'$ minstens zo goed is als het oorspronkelijke beleid $\pi$ , en doorgaans beter.

Als $\pi'$ even goed is als, maar niet beter dan $\pi$ , dan zijn zowel $\pi'$ als $\pi$ optimale beleidsvormen, aangezien hun waardefuncties gelijk zijn en voldoen aan de Bellman optimaliteitsvergelijking:

v_\pi(s) = \max_a \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_\pi(s')\Bigr)

Was alles duidelijk?

Bedankt voor je feedback!

Sectie 3. Hoofdstuk 5

Vraag AI

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Suggested prompts:

Can you explain the policy improvement theorem in simpler terms?

How does the greedy policy guarantee improvement over the original policy?

What is the Bellman optimality equation and why is it important?

Veeg om het menu te tonen