Leer Bellman-Vergelijkingen | Dynamisch Programmeren

Definitie

Een Bellman-vergelijking is een functionele vergelijking die een waardefunctie definieert in recursieve vorm.

Ter verduidelijking van de definitie:

Een functionele vergelijking is een vergelijking waarvan de oplossing een functie is. Voor de Bellman-vergelijking is deze oplossing de waardefunctie waarvoor de vergelijking is opgesteld;
Een recursieve vorm betekent dat de waarde in de huidige toestand wordt uitgedrukt in termen van waarden in toekomstige toestanden.

Kortom, het oplossen van de Bellman-vergelijking levert de gewenste waardefunctie op, en het afleiden van deze vergelijking vereist het identificeren van een recursieve relatie tussen huidige en toekomstige toestanden.

Toestandswaardefunctie

Ter herinnering, hier is een toestandswaardefunctie in compacte vorm:

\def\E{\operatorname{\mathbb{E}}} v_\pi(s) = \E_\pi[G_t | S_t = s]

Om de Bellman-vergelijking voor deze waardefunctie te verkrijgen, breiden we de rechterkant van de vergelijking uit en stellen we een recursieve relatie op:

\def\E{\operatorname{\mathbb{E}}} \begin{aligned} v_\pi(s) &= \E_\pi[G_t | S_t = s]\\ &= \E_\pi[R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... | S_t = s]\\ &= \E_\pi[R_{t+1} + \gamma \sum_{k=0}^\infty \gamma^k R_{t+k+2} | S_t = s]\\ &= \E_\pi[R_{t+1} + \gamma G_{t+1} | S_t = s]\\ &= \sum_a \pi(a | s) \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma \E_\pi\Bigl[G_{t+1} | S_{t+1} = s'\Bigr]\Bigr)\\ &= \sum_a \pi(a | s) \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_\pi(s')\Bigr) \end{aligned}

De laatste vergelijking in deze reeks is een Bellman-vergelijking voor de toestandswaardefunctie.

Intuïtie

Om de waarde van een toestand $s$ te bepalen:

Overweeg alle mogelijke acties $a$ die je vanuit deze toestand kunt nemen, elk gewogen naar de waarschijnlijkheid dat je die actie kiest onder je huidige beleid $\pi(a | s)$ ;
Voor elke actie $a$ overweeg je alle mogelijke volgende toestanden $s'$ en beloningen $r$ , gewogen naar hun waarschijnlijkheid $p(s', r | s, a)$ ;
Voor elk van deze uitkomsten neem je de directe beloning $r$ die je ontvangt plus de gedisconteerde waarde van de volgende toestand $\gamma v_\pi(s')$ .

Door al deze mogelijkheden bij elkaar op te tellen, verkrijg je de totale verwachte waarde van de toestand $s$ onder je huidige beleid.

Actiewaarde-functie

Hier is een actiewaarde-functie in compacte vorm:

\def\E{\operatorname{\mathbb{E}}} q_\pi(s, a) = \E_\pi[G_t | S_t = s, A_t = a]

De afleiding van de Bellman-vergelijking voor deze functie is vrij vergelijkbaar met de vorige:

\def\E{\operatorname{\mathbb{E}}} \begin{aligned} q_\pi(s, a) &= \E_\pi[G_t | S_t = s, A_t = a]\\ &= \E_\pi[R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... | S_t = s, A_t = a]\\ &= \E_\pi[R_{t+1} + \gamma \sum_{k=0}^\infty \gamma^k R_{t+k+2} | S_t = s, A_t = a]\\ &= \E_\pi[R_{t+1} + \gamma G_{t+1} | S_t = s, A_t = a]\\ &= \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma \E_\pi\Bigl[G_{t+1} | S_{t+1} = s'\Bigr]\Bigr)\\ &= \sum_{s', r} p(s', r | s, a)\Biggl(r + \gamma \sum_{a'} \pi(a' | s') \Bigl(\E_\pi\Bigl[G_{t+1} | S_{t+1} = s', A_{t+1} = a'\Bigr]\Bigr)\Biggr)\\ &= \sum_{s', r} p(s', r | s, a)\Biggl(r + \gamma \sum_{a'} \pi(a' | s') q(s', a')\Biggr) \end{aligned}

De laatste vergelijking in deze reeks is een Bellman-vergelijking voor de actiewaarde-functie.

Intuïtie

Om de waarde van een toestand-actie-paar $(s, a)$ te bepalen:

Overweeg alle mogelijke volgende toestanden $s'$ en beloningen $r$ , gewogen naar hun waarschijnlijkheid $p(s', r | s, a)$ ;
Voor elk van deze uitkomsten neem je de directe beloning $r$ die je ontvangt plus de gedisconteerde waarde van de volgende toestand;
Om de waarde van de volgende toestand $s'$ te berekenen, vermenigvuldig je voor alle acties $a'$ mogelijk vanuit toestand $s'$ de actie-waarde $q(s', a')$ met de kans om $a'$ te kiezen in toestand $s'$ onder het huidige beleid $\pi(a' | s')$ . Tel vervolgens alles op om de uiteindelijke waarde te verkrijgen.

Door al deze mogelijkheden samen te nemen, krijg je de totale verwachte waarde van het toestand-actie-paar $(s, a)$ onder je huidige beleid.

Was alles duidelijk?

Bedankt voor je feedback!

Sectie 3. Hoofdstuk 2

Vraag AI

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Veeg om het menu te tonen

Definitie

Een Bellman-vergelijking is een functionele vergelijking die een waardefunctie definieert in recursieve vorm.

Ter verduidelijking van de definitie:

Een functionele vergelijking is een vergelijking waarvan de oplossing een functie is. Voor de Bellman-vergelijking is deze oplossing de waardefunctie waarvoor de vergelijking is opgesteld;
Een recursieve vorm betekent dat de waarde in de huidige toestand wordt uitgedrukt in termen van waarden in toekomstige toestanden.

Toestandswaardefunctie

Ter herinnering, hier is een toestandswaardefunctie in compacte vorm:

\def\E{\operatorname{\mathbb{E}}} v_\pi(s) = \E_\pi[G_t | S_t = s]

Om de Bellman-vergelijking voor deze waardefunctie te verkrijgen, breiden we de rechterkant van de vergelijking uit en stellen we een recursieve relatie op:

\def\E{\operatorname{\mathbb{E}}} \begin{aligned} v_\pi(s) &= \E_\pi[G_t | S_t = s]\\ &= \E_\pi[R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... | S_t = s]\\ &= \E_\pi[R_{t+1} + \gamma \sum_{k=0}^\infty \gamma^k R_{t+k+2} | S_t = s]\\ &= \E_\pi[R_{t+1} + \gamma G_{t+1} | S_t = s]\\ &= \sum_a \pi(a | s) \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma \E_\pi\Bigl[G_{t+1} | S_{t+1} = s'\Bigr]\Bigr)\\ &= \sum_a \pi(a | s) \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_\pi(s')\Bigr) \end{aligned}

De laatste vergelijking in deze reeks is een Bellman-vergelijking voor de toestandswaardefunctie.

Intuïtie

Om de waarde van een toestand $s$ te bepalen:

Overweeg alle mogelijke acties $a$ die je vanuit deze toestand kunt nemen, elk gewogen naar de waarschijnlijkheid dat je die actie kiest onder je huidige beleid $\pi(a | s)$ ;
Voor elke actie $a$ overweeg je alle mogelijke volgende toestanden $s'$ en beloningen $r$ , gewogen naar hun waarschijnlijkheid $p(s', r | s, a)$ ;
Voor elk van deze uitkomsten neem je de directe beloning $r$ die je ontvangt plus de gedisconteerde waarde van de volgende toestand $\gamma v_\pi(s')$ .

Door al deze mogelijkheden bij elkaar op te tellen, verkrijg je de totale verwachte waarde van de toestand $s$ onder je huidige beleid.

Actiewaarde-functie

Hier is een actiewaarde-functie in compacte vorm:

\def\E{\operatorname{\mathbb{E}}} q_\pi(s, a) = \E_\pi[G_t | S_t = s, A_t = a]

De afleiding van de Bellman-vergelijking voor deze functie is vrij vergelijkbaar met de vorige:

\def\E{\operatorname{\mathbb{E}}} \begin{aligned} q_\pi(s, a) &= \E_\pi[G_t | S_t = s, A_t = a]\\ &= \E_\pi[R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... | S_t = s, A_t = a]\\ &= \E_\pi[R_{t+1} + \gamma \sum_{k=0}^\infty \gamma^k R_{t+k+2} | S_t = s, A_t = a]\\ &= \E_\pi[R_{t+1} + \gamma G_{t+1} | S_t = s, A_t = a]\\ &= \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma \E_\pi\Bigl[G_{t+1} | S_{t+1} = s'\Bigr]\Bigr)\\ &= \sum_{s', r} p(s', r | s, a)\Biggl(r + \gamma \sum_{a'} \pi(a' | s') \Bigl(\E_\pi\Bigl[G_{t+1} | S_{t+1} = s', A_{t+1} = a'\Bigr]\Bigr)\Biggr)\\ &= \sum_{s', r} p(s', r | s, a)\Biggl(r + \gamma \sum_{a'} \pi(a' | s') q(s', a')\Biggr) \end{aligned}

De laatste vergelijking in deze reeks is een Bellman-vergelijking voor de actiewaarde-functie.

Intuïtie

Om de waarde van een toestand-actie-paar $(s, a)$ te bepalen:

Overweeg alle mogelijke volgende toestanden $s'$ en beloningen $r$ , gewogen naar hun waarschijnlijkheid $p(s', r | s, a)$ ;
Voor elk van deze uitkomsten neem je de directe beloning $r$ die je ontvangt plus de gedisconteerde waarde van de volgende toestand;
Om de waarde van de volgende toestand $s'$ te berekenen, vermenigvuldig je voor alle acties $a'$ mogelijk vanuit toestand $s'$ de actie-waarde $q(s', a')$ met de kans om $a'$ te kiezen in toestand $s'$ onder het huidige beleid $\pi(a' | s')$ . Tel vervolgens alles op om de uiteindelijke waarde te verkrijgen.

Door al deze mogelijkheden samen te nemen, krijg je de totale verwachte waarde van het toestand-actie-paar $(s, a)$ onder je huidige beleid.

Was alles duidelijk?

Bedankt voor je feedback!

Sectie 3. Hoofdstuk 2