Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Bellman-Gleichungen | Dynamische Programmierung
Einführung in das Reinforcement Learning
course content

Kursinhalt

Einführung in das Reinforcement Learning

Einführung in das Reinforcement Learning

1. Kernprinzipien des RL
2. Multi-Armed-Bandit-Problem
3. Dynamische Programmierung
4. Monte-Carlo-Methoden
5. Temporal-Differenz-Lernen

book
Bellman-Gleichungen

Note
Definition

Eine Bellman-Gleichung ist eine Funktionalgleichung, die eine Wertfunktion in rekursiver Form definiert.

Zur Verdeutlichung der Definition:

  • Eine Funktionalgleichung ist eine Gleichung, deren Lösung eine Funktion ist. Bei der Bellman-Gleichung ist diese Lösung die Wertfunktion, für die die Gleichung aufgestellt wurde;
  • Eine rekursive Form bedeutet, dass der Wert im aktuellen Zustand in Bezug auf Werte in zukünftigen Zuständen ausgedrückt wird.

Kurz gesagt, das Lösen der Bellman-Gleichung liefert die gewünschte Wertfunktion, und das Herleiten dieser Gleichung erfordert das Erkennen einer rekursiven Beziehung zwischen aktuellen und zukünftigen Zuständen.

Zustandswertfunktion

Zur Erinnerung, hier ist eine Zustandswertfunktion in kompakter Form:

vπ(s)=Eπ[GtSt=s]\def\E{\operatorname{\mathbb{E}}} v_\pi(s) = \E_\pi[G_t | S_t = s]

Um die Bellman-Gleichung für diese Wertfunktion zu erhalten, erweitern wir die rechte Seite der Gleichung und stellen eine rekursive Beziehung her:

vπ(s)=Eπ[GtSt=s]=Eπ[Rt+1+γRt+2+γ2Rt+3+...St=s]=Eπ[Rt+1+γk=0γkRt+k+2St=s]=Eπ[Rt+1+γGt+1St=s]=aπ(as)s,rp(s,rs,a)(r+γEπ[Gt+1St+1=s])=aπ(as)s,rp(s,rs,a)(r+γvπ(s))\def\E{\operatorname{\mathbb{E}}} \begin{aligned} v_\pi(s) &= \E_\pi[G_t | S_t = s]\\ &= \E_\pi[R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... | S_t = s]\\ &= \E_\pi[R_{t+1} + \gamma \sum_{k=0}^\infty \gamma^k R_{t+k+2} | S_t = s]\\ &= \E_\pi[R_{t+1} + \gamma G_{t+1} | S_t = s]\\ &= \sum_a \pi(a | s) \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma \E_\pi\Bigl[G_{t+1} | S_{t+1} = s'\Bigr]\Bigr)\\ &= \sum_a \pi(a | s) \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_\pi(s')\Bigr) \end{aligned}

Die letzte Gleichung in dieser Kette ist eine Bellman-Gleichung für die Zustandswertfunktion.

Intuition

Um den Wert eines Zustands ss zu bestimmen:

  1. Berücksichtigung aller möglichen Aktionen aa, die aus diesem Zustand heraus gewählt werden können, gewichtet nach der Wahrscheinlichkeit, mit der diese Aktion gemäß der aktuellen Politik π(as)\pi(a | s) gewählt wird;
  2. Für jede Aktion aa werden alle möglichen Folgezustände ss' und Belohnungen rr betrachtet, gewichtet nach deren Wahrscheinlichkeit p(s,rs,a)p(s', r | s, a);
  3. Für jedes dieser Ergebnisse wird die unmittelbare Belohnung rr plus der diskontierte Wert des nächsten Zustands γvπ(s)\gamma v_\pi(s') addiert.

Durch das Summieren all dieser Möglichkeiten ergibt sich der gesamte erwartete Wert des Zustands ss unter der aktuellen Politik.

Aktionswertfunktion

Hier ist eine Aktionswertfunktion in kompakter Form:

qπ(s,a)=Eπ[GtSt=s,At=a]\def\E{\operatorname{\mathbb{E}}} q_\pi(s, a) = \E_\pi[G_t | S_t = s, A_t = a]

Die Herleitung der Bellman-Gleichung für diese Funktion ist der vorherigen sehr ähnlich:

qπ(s,a)=Eπ[GtSt=s,At=a]=Eπ[Rt+1+γRt+2+γ2Rt+3+...St=s,At=a]=Eπ[Rt+1+γk=0γkRt+k+2St=s,At=a]=Eπ[Rt+1+γGt+1St=s,At=a]=s,rp(s,rs,a)(r+γEπ[Gt+1St+1=s])=s,rp(s,rs,a)(r+γaπ(as)(Eπ[Gt+1St+1=s,At+1=a]))=s,rp(s,rs,a)(r+γaπ(as)q(s,a))\def\E{\operatorname{\mathbb{E}}} \begin{aligned} q_\pi(s, a) &= \E_\pi[G_t | S_t = s, A_t = a]\\ &= \E_\pi[R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... | S_t = s, A_t = a]\\ &= \E_\pi[R_{t+1} + \gamma \sum_{k=0}^\infty \gamma^k R_{t+k+2} | S_t = s, A_t = a]\\ &= \E_\pi[R_{t+1} + \gamma G_{t+1} | S_t = s, A_t = a]\\ &= \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma \E_\pi\Bigl[G_{t+1} | S_{t+1} = s'\Bigr]\Bigr)\\ &= \sum_{s', r} p(s', r | s, a)\Biggl(r + \gamma \sum_{a'} \pi(a' | s') \Bigl(\E_\pi\Bigl[G_{t+1} | S_{t+1} = s', A_{t+1} = a'\Bigr]\Bigr)\Biggr)\\ &= \sum_{s', r} p(s', r | s, a)\Biggl(r + \gamma \sum_{a'} \pi(a' | s') q(s', a')\Biggr) \end{aligned}

Die letzte Gleichung in dieser Kette ist eine Bellman-Gleichung für die Aktionswertfunktion.

Intuition

Um den Wert eines Zustands-Aktions-Paares (s,a)(s, a) zu bestimmen:

  1. Berücksichtigen aller möglichen Folgezustände ss' und Belohnungen rr, gewichtet nach deren Wahrscheinlichkeit p(s,rs,a)p(s', r | s, a);
  2. Für jedes dieser Ergebnisse wird die unmittelbare Belohnung rr addiert, die erhalten wird, zuzüglich des diskontierten Werts des nächsten Zustands;
  3. Zur Berechnung des Werts des nächsten Zustands ss' werden für alle möglichen Aktionen aa' aus Zustand ss' der Aktionswert q(s,a)q(s', a') mit der Wahrscheinlichkeit multipliziert, aa' im Zustand ss' gemäß der aktuellen Politik π(as)\pi(a' | s') zu wählen. Anschließend wird alles aufsummiert, um den endgültigen Wert zu erhalten.

Durch das Zusammenfassen all dieser Möglichkeiten ergibt sich der gesamte erwartete Wert des Zustands-Aktions-Paares (s,a)(s, a) unter der aktuellen Politik.

question mark

Welche der folgenden Aussagen beschreibt die Funktion der Bellman-Gleichung am besten?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 2

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

course content

Kursinhalt

Einführung in das Reinforcement Learning

Einführung in das Reinforcement Learning

1. Kernprinzipien des RL
2. Multi-Armed-Bandit-Problem
3. Dynamische Programmierung
4. Monte-Carlo-Methoden
5. Temporal-Differenz-Lernen

book
Bellman-Gleichungen

Note
Definition

Eine Bellman-Gleichung ist eine Funktionalgleichung, die eine Wertfunktion in rekursiver Form definiert.

Zur Verdeutlichung der Definition:

  • Eine Funktionalgleichung ist eine Gleichung, deren Lösung eine Funktion ist. Bei der Bellman-Gleichung ist diese Lösung die Wertfunktion, für die die Gleichung aufgestellt wurde;
  • Eine rekursive Form bedeutet, dass der Wert im aktuellen Zustand in Bezug auf Werte in zukünftigen Zuständen ausgedrückt wird.

Kurz gesagt, das Lösen der Bellman-Gleichung liefert die gewünschte Wertfunktion, und das Herleiten dieser Gleichung erfordert das Erkennen einer rekursiven Beziehung zwischen aktuellen und zukünftigen Zuständen.

Zustandswertfunktion

Zur Erinnerung, hier ist eine Zustandswertfunktion in kompakter Form:

vπ(s)=Eπ[GtSt=s]\def\E{\operatorname{\mathbb{E}}} v_\pi(s) = \E_\pi[G_t | S_t = s]

Um die Bellman-Gleichung für diese Wertfunktion zu erhalten, erweitern wir die rechte Seite der Gleichung und stellen eine rekursive Beziehung her:

vπ(s)=Eπ[GtSt=s]=Eπ[Rt+1+γRt+2+γ2Rt+3+...St=s]=Eπ[Rt+1+γk=0γkRt+k+2St=s]=Eπ[Rt+1+γGt+1St=s]=aπ(as)s,rp(s,rs,a)(r+γEπ[Gt+1St+1=s])=aπ(as)s,rp(s,rs,a)(r+γvπ(s))\def\E{\operatorname{\mathbb{E}}} \begin{aligned} v_\pi(s) &= \E_\pi[G_t | S_t = s]\\ &= \E_\pi[R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... | S_t = s]\\ &= \E_\pi[R_{t+1} + \gamma \sum_{k=0}^\infty \gamma^k R_{t+k+2} | S_t = s]\\ &= \E_\pi[R_{t+1} + \gamma G_{t+1} | S_t = s]\\ &= \sum_a \pi(a | s) \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma \E_\pi\Bigl[G_{t+1} | S_{t+1} = s'\Bigr]\Bigr)\\ &= \sum_a \pi(a | s) \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_\pi(s')\Bigr) \end{aligned}

Die letzte Gleichung in dieser Kette ist eine Bellman-Gleichung für die Zustandswertfunktion.

Intuition

Um den Wert eines Zustands ss zu bestimmen:

  1. Berücksichtigung aller möglichen Aktionen aa, die aus diesem Zustand heraus gewählt werden können, gewichtet nach der Wahrscheinlichkeit, mit der diese Aktion gemäß der aktuellen Politik π(as)\pi(a | s) gewählt wird;
  2. Für jede Aktion aa werden alle möglichen Folgezustände ss' und Belohnungen rr betrachtet, gewichtet nach deren Wahrscheinlichkeit p(s,rs,a)p(s', r | s, a);
  3. Für jedes dieser Ergebnisse wird die unmittelbare Belohnung rr plus der diskontierte Wert des nächsten Zustands γvπ(s)\gamma v_\pi(s') addiert.

Durch das Summieren all dieser Möglichkeiten ergibt sich der gesamte erwartete Wert des Zustands ss unter der aktuellen Politik.

Aktionswertfunktion

Hier ist eine Aktionswertfunktion in kompakter Form:

qπ(s,a)=Eπ[GtSt=s,At=a]\def\E{\operatorname{\mathbb{E}}} q_\pi(s, a) = \E_\pi[G_t | S_t = s, A_t = a]

Die Herleitung der Bellman-Gleichung für diese Funktion ist der vorherigen sehr ähnlich:

qπ(s,a)=Eπ[GtSt=s,At=a]=Eπ[Rt+1+γRt+2+γ2Rt+3+...St=s,At=a]=Eπ[Rt+1+γk=0γkRt+k+2St=s,At=a]=Eπ[Rt+1+γGt+1St=s,At=a]=s,rp(s,rs,a)(r+γEπ[Gt+1St+1=s])=s,rp(s,rs,a)(r+γaπ(as)(Eπ[Gt+1St+1=s,At+1=a]))=s,rp(s,rs,a)(r+γaπ(as)q(s,a))\def\E{\operatorname{\mathbb{E}}} \begin{aligned} q_\pi(s, a) &= \E_\pi[G_t | S_t = s, A_t = a]\\ &= \E_\pi[R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... | S_t = s, A_t = a]\\ &= \E_\pi[R_{t+1} + \gamma \sum_{k=0}^\infty \gamma^k R_{t+k+2} | S_t = s, A_t = a]\\ &= \E_\pi[R_{t+1} + \gamma G_{t+1} | S_t = s, A_t = a]\\ &= \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma \E_\pi\Bigl[G_{t+1} | S_{t+1} = s'\Bigr]\Bigr)\\ &= \sum_{s', r} p(s', r | s, a)\Biggl(r + \gamma \sum_{a'} \pi(a' | s') \Bigl(\E_\pi\Bigl[G_{t+1} | S_{t+1} = s', A_{t+1} = a'\Bigr]\Bigr)\Biggr)\\ &= \sum_{s', r} p(s', r | s, a)\Biggl(r + \gamma \sum_{a'} \pi(a' | s') q(s', a')\Biggr) \end{aligned}

Die letzte Gleichung in dieser Kette ist eine Bellman-Gleichung für die Aktionswertfunktion.

Intuition

Um den Wert eines Zustands-Aktions-Paares (s,a)(s, a) zu bestimmen:

  1. Berücksichtigen aller möglichen Folgezustände ss' und Belohnungen rr, gewichtet nach deren Wahrscheinlichkeit p(s,rs,a)p(s', r | s, a);
  2. Für jedes dieser Ergebnisse wird die unmittelbare Belohnung rr addiert, die erhalten wird, zuzüglich des diskontierten Werts des nächsten Zustands;
  3. Zur Berechnung des Werts des nächsten Zustands ss' werden für alle möglichen Aktionen aa' aus Zustand ss' der Aktionswert q(s,a)q(s', a') mit der Wahrscheinlichkeit multipliziert, aa' im Zustand ss' gemäß der aktuellen Politik π(as)\pi(a' | s') zu wählen. Anschließend wird alles aufsummiert, um den endgültigen Wert zu erhalten.

Durch das Zusammenfassen all dieser Möglichkeiten ergibt sich der gesamte erwartete Wert des Zustands-Aktions-Paares (s,a)(s, a) unter der aktuellen Politik.

question mark

Welche der folgenden Aussagen beschreibt die Funktion der Bellman-Gleichung am besten?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 2
some-alt