Lernen Optimalitätsbedingungen | Dynamische Programmierung

Im vorherigen Kapitel hast du die Bellman-Gleichungen für Zustandswert- und Zustands-Aktionswertfunktionen kennengelernt. Diese Gleichungen beschreiben, wie Zustandswerte rekursiv durch die Werte anderer Zustände definiert werden können, wobei die Werte von einer gegebenen Politik abhängen. Allerdings sind nicht alle Politiken gleich effektiv. Tatsächlich liefern Wertfunktionen eine partielle Ordnung für Politiken, die wie folgt beschrieben werden kann:

\pi \ge \pi' \iff v_\pi(s) \ge v_{\pi'}(s) \qquad \forall s \in S

Eine Politik $\pi$ ist besser als oder gleichwertig zu einer Politik $\pi'$ , wenn für alle möglichen Zustände der erwartete Ertrag von Politik $\pi$ nicht geringer ist als der erwartete Ertrag von Politik $\pi'$ .

Mehr erfahren

Eine partielle Ordnung folgt den üblichen Ordnungsregeln, erzwingt jedoch nicht, dass jedes Paar verglichen werden muss. In unserem Fall können wir zwei Politiken nur dann einordnen, wenn sie die gleichen Ergebnisse liefern oder eine von ihnen eindeutig besser ist als die andere. In allen anderen Fällen bleiben die Politiken nicht vergleichbar.

Optimale Politik

Definition

Für jedes MDP existiert mindestens eine Politik, die genauso gut ist wie oder besser als alle anderen Politiken. Diese Politik wird als optimale Politik $\pi_*$ bezeichnet. Obwohl es viele optimale Politiken geben kann, werden alle mit $\pi_*$ bezeichnet.

Warum existiert immer eine optimale Politik?

Vielleicht fragen Sie sich, warum für jedes MDP immer eine optimale Strategie existiert. Das ist eine berechtigte Frage, und die dahinterstehende Intuition ist überraschend einfach. Denken Sie daran, dass Zustände in einem MDP den Zustand der Umgebung vollständig erfassen. Das bedeutet, dass jeder Zustand unabhängig von allen anderen ist: Die in einem Zustand gewählte Aktion beeinflusst nicht die Belohnungen oder Ergebnisse, die in einem anderen Zustand erreichbar sind. Daher gelangt man durch die separate Auswahl der optimalen Aktion in jedem Zustand ganz natürlich zur insgesamt besten Abfolge von Aktionen im gesamten Prozess. Und diese Menge optimaler Aktionen in jedem Zustand bildet eine optimale Strategie.

Darüber hinaus gibt es immer mindestens eine Strategie, die sowohl optimal als auch deterministisch ist. Tatsächlich gilt: Wenn für einen Zustand $s$ zwei Aktionen $a$ und $a'$ den gleichen erwarteten Ertrag liefern, beeinflusst die Auswahl nur einer dieser Aktionen die Optimalität der Strategie nicht. Wendet man dieses Prinzip auf jeden einzelnen Zustand an, wird die Strategie deterministisch, während ihre Optimalität erhalten bleibt.

Optimale Wertfunktionen

Optimale Politiken teilen sich die gleichen Wertfunktionen — eine Tatsache, die deutlich wird, wenn man betrachtet, wie Politiken verglichen werden. Das bedeutet, dass optimale Politiken sowohl die Zustandswertfunktion als auch die Aktionswertfunktion gemeinsam haben.

Zusätzlich besitzen optimale Wertfunktionen eigene Bellman-Gleichungen, die ohne Bezug auf eine spezifische Politik formuliert werden können. Diese Gleichungen werden als Bellman-Optimalitätsgleichungen bezeichnet.

Optimale Zustandswertfunktion

Definition

Optimale Zustandswertfunktion $V_*$ (oder $v_*$ ) bezeichnet den maximal erwarteten Ertrag, der von einem bestimmten Zustand aus durch Befolgen einer optimalen Politik erreichbar ist.

Es kann mathematisch wie folgt definiert werden:

\def\E{\operatorname{\mathbb{E}}} v_*(s) = \max_\pi v_\pi(s) = \E_{\pi_*}[G_t | S_t = s]

Bellman-Optimalitätsgleichung für diese Wertfunktion kann wie folgt hergeleitet werden:

\begin{aligned} v_*(s) &= \sum_a \pi_*(a | s) \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_*(s')\Bigr)\\ &= \max_a \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_*(s')\Bigr) \end{aligned}

Intuition

Wie bereits bekannt, existiert immer mindestens eine Politik, die sowohl optimal als auch deterministisch ist. Eine solche Politik würde für jeden Zustand konsequent eine bestimmte Aktion auswählen, die den erwarteten Ertrag maximiert. Daher beträgt die Wahrscheinlichkeit, diese optimale Aktion zu wählen, stets 1, während die Wahrscheinlichkeit, jede andere Aktion zu wählen, 0 ist. Unter dieser Annahme benötigt die ursprüngliche Bellman-Gleichung keinen Summenoperator mehr. Da immer die bestmögliche Aktion gewählt wird, kann die Summe durch das Maximum über alle verfügbaren Aktionen ersetzt werden.

Optimale Aktionswertfunktion

Definition

Optimale Aktionswertfunktion $Q_*$ (oder $q_*$ ) bezeichnet den maximal erwarteten Ertrag, der durch Ausführen einer bestimmten Aktion in einem bestimmten Zustand und anschließendes Befolgen der optimalen Strategie erreicht werden kann.

Sie kann mathematisch wie folgt definiert werden:

\def\E{\operatorname{\mathbb{E}}} q_*(s, a) = \max_\pi q_\pi(s, a) = \E_{\pi_*}[G_t | S_t = s, A_t = a]

Bellman-Optimalitätsgleichung für diese Wertfunktion kann wie folgt hergeleitet werden:

\begin{aligned} q_*(s, a) &= \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma \sum_{a'} \pi_*(a' | s')q_*(s', a')\Bigr)\\ &= \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma \max_{a'} q_*(s', a')\Bigr) \end{aligned}

Intuition

Ähnlich wie bei der Zustandswertfunktion kann die Summe durch das Maximum über alle verfügbaren Aktionen ersetzt werden.

War alles klar?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 3

Fragen Sie AI

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Suggested prompts:

Can you explain the difference between deterministic and stochastic policies?

How do Bellman optimality equations help in finding the optimal policy?

Can you provide an example of how to compute the optimal value function for a simple MDP?

Swipe um das Menü anzuzeigen

\pi \ge \pi' \iff v_\pi(s) \ge v_{\pi'}(s) \qquad \forall s \in S

Mehr erfahren

Optimale Politik

Definition

Warum existiert immer eine optimale Politik?

Optimale Wertfunktionen

Optimale Zustandswertfunktion

Definition

Optimale Zustandswertfunktion $V_*$ (oder $v_*$ ) bezeichnet den maximal erwarteten Ertrag, der von einem bestimmten Zustand aus durch Befolgen einer optimalen Politik erreichbar ist.

Es kann mathematisch wie folgt definiert werden:

\def\E{\operatorname{\mathbb{E}}} v_*(s) = \max_\pi v_\pi(s) = \E_{\pi_*}[G_t | S_t = s]

Bellman-Optimalitätsgleichung für diese Wertfunktion kann wie folgt hergeleitet werden:

\begin{aligned} v_*(s) &= \sum_a \pi_*(a | s) \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_*(s')\Bigr)\\ &= \max_a \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_*(s')\Bigr) \end{aligned}

Intuition

Optimale Aktionswertfunktion

Definition

Sie kann mathematisch wie folgt definiert werden:

\def\E{\operatorname{\mathbb{E}}} q_*(s, a) = \max_\pi q_\pi(s, a) = \E_{\pi_*}[G_t | S_t = s, A_t = a]

Bellman-Optimalitätsgleichung für diese Wertfunktion kann wie folgt hergeleitet werden:

\begin{aligned} q_*(s, a) &= \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma \sum_{a'} \pi_*(a' | s')q_*(s', a')\Bigr)\\ &= \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma \max_{a'} q_*(s', a')\Bigr) \end{aligned}

Intuition

Ähnlich wie bei der Zustandswertfunktion kann die Summe durch das Maximum über alle verfügbaren Aktionen ersetzt werden.

War alles klar?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 3