Lernen Bellman-Gleichungen | Dynamische Programmierung

Definition

Eine Bellman-Gleichung ist eine Funktionalgleichung, die eine Wertfunktion in rekursiver Form definiert.

Zur Verdeutlichung der Definition:

Eine Funktionalgleichung ist eine Gleichung, deren Lösung eine Funktion ist. Bei der Bellman-Gleichung ist diese Lösung die Wertfunktion, für die die Gleichung formuliert wurde;
Eine rekursive Form bedeutet, dass der Wert im aktuellen Zustand in Bezug auf Werte in zukünftigen Zuständen ausgedrückt wird.

Kurz gesagt, das Lösen der Bellman-Gleichung liefert die gewünschte Wertfunktion, und die Herleitung dieser Gleichung erfordert die Identifikation einer rekursiven Beziehung zwischen aktuellen und zukünftigen Zuständen.

Zustandswertfunktion

Zur Erinnerung: Hier ist eine Zustandswertfunktion in kompakter Form:

\def\E{\operatorname{\mathbb{E}}} v_\pi(s) = \E_\pi[G_t | S_t = s]

Um die Bellman-Gleichung für diese Wertfunktion zu erhalten, wird die rechte Seite der Gleichung erweitert und eine rekursive Beziehung hergestellt:

\def\E{\operatorname{\mathbb{E}}} \begin{aligned} v_\pi(s) &= \E_\pi[G_t | S_t = s]\\ &= \E_\pi[R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... | S_t = s]\\ &= \E_\pi[R_{t+1} + \gamma \sum_{k=0}^\infty \gamma^k R_{t+k+2} | S_t = s]\\ &= \E_\pi[R_{t+1} + \gamma G_{t+1} | S_t = s]\\ &= \sum_a \pi(a | s) \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma \E_\pi\Bigl[G_{t+1} | S_{t+1} = s'\Bigr]\Bigr)\\ &= \sum_a \pi(a | s) \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_\pi(s')\Bigr) \end{aligned}

Die letzte Gleichung in dieser Kette ist eine Bellman-Gleichung für die Zustandswertfunktion.

Intuition

Um den Wert eines Zustands $s$ zu bestimmen:

Berücksichtigung aller möglichen Aktionen $a$ , die aus diesem Zustand heraus ausgeführt werden können, gewichtet nach der Wahrscheinlichkeit, mit der diese Aktion gemäß der aktuellen Politik $\pi(a | s)$ gewählt wird;
Für jede Aktion $a$ werden alle möglichen Folgezustände $s'$ und Belohnungen $r$ betrachtet, gewichtet nach ihrer Wahrscheinlichkeit $p(s', r | s, a)$ ;
Für jedes dieser Ergebnisse wird die unmittelbare Belohnung $r$ addiert sowie der diskontierte Wert des nächsten Zustands $\gamma v_\pi(s')$ .

Durch das Aufsummieren all dieser Möglichkeiten ergibt sich der gesamte erwartete Wert des Zustands $s$ unter der aktuellen Politik.

Aktionswertfunktion

Hier ist eine Aktionswertfunktion in kompakter Form:

\def\E{\operatorname{\mathbb{E}}} q_\pi(s, a) = \E_\pi[G_t | S_t = s, A_t = a]

Die Herleitung der Bellman-Gleichung für diese Funktion ist der vorherigen sehr ähnlich:

\def\E{\operatorname{\mathbb{E}}} \begin{aligned} q_\pi(s, a) &= \E_\pi[G_t | S_t = s, A_t = a]\\ &= \E_\pi[R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... | S_t = s, A_t = a]\\ &= \E_\pi[R_{t+1} + \gamma \sum_{k=0}^\infty \gamma^k R_{t+k+2} | S_t = s, A_t = a]\\ &= \E_\pi[R_{t+1} + \gamma G_{t+1} | S_t = s, A_t = a]\\ &= \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma \E_\pi\Bigl[G_{t+1} | S_{t+1} = s'\Bigr]\Bigr)\\ &= \sum_{s', r} p(s', r | s, a)\Biggl(r + \gamma \sum_{a'} \pi(a' | s') \Bigl(\E_\pi\Bigl[G_{t+1} | S_{t+1} = s', A_{t+1} = a'\Bigr]\Bigr)\Biggr)\\ &= \sum_{s', r} p(s', r | s, a)\Biggl(r + \gamma \sum_{a'} \pi(a' | s') q(s', a')\Biggr) \end{aligned}

Die letzte Gleichung in dieser Kette ist eine Bellman-Gleichung für die Aktionswertfunktion.

Intuition

Um den Wert eines Zustands-Aktions-Paares $(s, a)$ zu bestimmen:

Alle möglichen nächsten Zustände $s'$ und Belohnungen $r$ betrachten, gewichtet nach ihrer Wahrscheinlichkeit $p(s', r | s, a)$ ;
Für jedes dieser Ergebnisse die unmittelbare Belohnung $r$ plus den diskontierten Wert des nächsten Zustands addieren;
Um den Wert des nächsten Zustands $s'$ zu berechnen, für alle möglichen Aktionen $a'$ aus Zustand $s'$ den Aktionswert $q(s', a')$ mit der Wahrscheinlichkeit multiplizieren, $a'$ im Zustand $s'$ unter der aktuellen Politik $\pi(a' | s'$ zu wählen. Anschließend alles aufsummieren, um den endgültigen Wert zu erhalten.

Durch das Aufsummieren all dieser Möglichkeiten ergibt sich der gesamte erwartete Wert des Zustands-Aktions-Paares $(s, a)$ unter der aktuellen Politik.

War alles klar?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 2

Fragen Sie AI

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Swipe um das Menü anzuzeigen

Definition

Eine Bellman-Gleichung ist eine Funktionalgleichung, die eine Wertfunktion in rekursiver Form definiert.

Zur Verdeutlichung der Definition:

Eine Funktionalgleichung ist eine Gleichung, deren Lösung eine Funktion ist. Bei der Bellman-Gleichung ist diese Lösung die Wertfunktion, für die die Gleichung formuliert wurde;
Eine rekursive Form bedeutet, dass der Wert im aktuellen Zustand in Bezug auf Werte in zukünftigen Zuständen ausgedrückt wird.

Zustandswertfunktion

Zur Erinnerung: Hier ist eine Zustandswertfunktion in kompakter Form:

\def\E{\operatorname{\mathbb{E}}} v_\pi(s) = \E_\pi[G_t | S_t = s]

Um die Bellman-Gleichung für diese Wertfunktion zu erhalten, wird die rechte Seite der Gleichung erweitert und eine rekursive Beziehung hergestellt:

\def\E{\operatorname{\mathbb{E}}} \begin{aligned} v_\pi(s) &= \E_\pi[G_t | S_t = s]\\ &= \E_\pi[R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... | S_t = s]\\ &= \E_\pi[R_{t+1} + \gamma \sum_{k=0}^\infty \gamma^k R_{t+k+2} | S_t = s]\\ &= \E_\pi[R_{t+1} + \gamma G_{t+1} | S_t = s]\\ &= \sum_a \pi(a | s) \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma \E_\pi\Bigl[G_{t+1} | S_{t+1} = s'\Bigr]\Bigr)\\ &= \sum_a \pi(a | s) \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_\pi(s')\Bigr) \end{aligned}

Die letzte Gleichung in dieser Kette ist eine Bellman-Gleichung für die Zustandswertfunktion.

Intuition

Um den Wert eines Zustands $s$ zu bestimmen:

Berücksichtigung aller möglichen Aktionen $a$ , die aus diesem Zustand heraus ausgeführt werden können, gewichtet nach der Wahrscheinlichkeit, mit der diese Aktion gemäß der aktuellen Politik $\pi(a | s)$ gewählt wird;
Für jede Aktion $a$ werden alle möglichen Folgezustände $s'$ und Belohnungen $r$ betrachtet, gewichtet nach ihrer Wahrscheinlichkeit $p(s', r | s, a)$ ;
Für jedes dieser Ergebnisse wird die unmittelbare Belohnung $r$ addiert sowie der diskontierte Wert des nächsten Zustands $\gamma v_\pi(s')$ .

Durch das Aufsummieren all dieser Möglichkeiten ergibt sich der gesamte erwartete Wert des Zustands $s$ unter der aktuellen Politik.

Aktionswertfunktion

Hier ist eine Aktionswertfunktion in kompakter Form:

\def\E{\operatorname{\mathbb{E}}} q_\pi(s, a) = \E_\pi[G_t | S_t = s, A_t = a]

Die Herleitung der Bellman-Gleichung für diese Funktion ist der vorherigen sehr ähnlich:

\def\E{\operatorname{\mathbb{E}}} \begin{aligned} q_\pi(s, a) &= \E_\pi[G_t | S_t = s, A_t = a]\\ &= \E_\pi[R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... | S_t = s, A_t = a]\\ &= \E_\pi[R_{t+1} + \gamma \sum_{k=0}^\infty \gamma^k R_{t+k+2} | S_t = s, A_t = a]\\ &= \E_\pi[R_{t+1} + \gamma G_{t+1} | S_t = s, A_t = a]\\ &= \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma \E_\pi\Bigl[G_{t+1} | S_{t+1} = s'\Bigr]\Bigr)\\ &= \sum_{s', r} p(s', r | s, a)\Biggl(r + \gamma \sum_{a'} \pi(a' | s') \Bigl(\E_\pi\Bigl[G_{t+1} | S_{t+1} = s', A_{t+1} = a'\Bigr]\Bigr)\Biggr)\\ &= \sum_{s', r} p(s', r | s, a)\Biggl(r + \gamma \sum_{a'} \pi(a' | s') q(s', a')\Biggr) \end{aligned}

Die letzte Gleichung in dieser Kette ist eine Bellman-Gleichung für die Aktionswertfunktion.

Intuition

Um den Wert eines Zustands-Aktions-Paares $(s, a)$ zu bestimmen:

Alle möglichen nächsten Zustände $s'$ und Belohnungen $r$ betrachten, gewichtet nach ihrer Wahrscheinlichkeit $p(s', r | s, a)$ ;
Für jedes dieser Ergebnisse die unmittelbare Belohnung $r$ plus den diskontierten Wert des nächsten Zustands addieren;
Um den Wert des nächsten Zustands $s'$ zu berechnen, für alle möglichen Aktionen $a'$ aus Zustand $s'$ den Aktionswert $q(s', a')$ mit der Wahrscheinlichkeit multiplizieren, $a'$ im Zustand $s'$ unter der aktuellen Politik $\pi(a' | s'$ zu wählen. Anschließend alles aufsummieren, um den endgültigen Wert zu erhalten.

Durch das Aufsummieren all dieser Möglichkeiten ergibt sich der gesamte erwartete Wert des Zustands-Aktions-Paares $(s, a)$ unter der aktuellen Politik.

War alles klar?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 2