Kursinhalt
Einführung in das Reinforcement Learning
Einführung in das Reinforcement Learning
Optimalitätsbedingungen
Im vorherigen Kapitel hast du die Bellman-Gleichungen für Zustandswert- und Zustands-Aktionswertfunktionen kennengelernt. Diese Gleichungen beschreiben, wie Zustandswerte rekursiv durch die Werte anderer Zustände definiert werden können, wobei die Werte von einer gegebenen Politik abhängen. Allerdings sind nicht alle Politiken gleichermaßen effektiv. Tatsächlich liefern Wertfunktionen eine partielle Ordnung für Politiken, die wie folgt beschrieben werden kann:
Eine Politik ist besser als oder gleichwertig zu einer Politik , wenn für alle möglichen Zustände der erwartete Ertrag der Politik nicht geringer ist als der erwartete Ertrag der Politik .
Eine partielle Ordnung folgt den üblichen Ordnungsregeln, erzwingt jedoch nicht, dass jedes Paar verglichen werden muss. In unserem Fall können wir zwei Politiken nur dann einordnen, wenn sie die gleichen Ergebnisse liefern oder eine eindeutig besser ist als die andere. In allen anderen Fällen bleiben die Politiken nicht vergleichbar.
Optimale Politik
Für jedes MDP existiert mindestens eine Politik, die genauso gut oder besser ist als alle anderen Politiken. Diese Politik wird als optimale Politik bezeichnet. Obwohl es viele optimale Politiken geben kann, werden alle mit bezeichnet.
Warum existiert immer eine optimale Politik?
Sie fragen sich vielleicht, warum für jedes MDP immer eine optimale Politik existiert. Das ist eine berechtigte Frage, und die dahinterstehende Intuition ist überraschend einfach. Denken Sie daran, dass Zustände in einem MDP den Zustand der Umgebung vollständig erfassen. Das bedeutet, dass jeder Zustand unabhängig von allen anderen ist: Die in einem Zustand gewählte Aktion beeinflusst nicht die Belohnungen oder Ergebnisse, die in einem anderen Zustand erreichbar sind. Daher gelangt man, indem man in jedem Zustand die optimale Aktion separat auswählt, ganz natürlich zur insgesamt besten Abfolge von Aktionen im gesamten Prozess. Und diese Menge optimaler Aktionen in jedem Zustand bildet eine optimale Politik.
Darüber hinaus gibt es immer mindestens eine Politik, die sowohl optimal als auch deterministisch ist. Tatsächlich gilt: Wenn für einen Zustand zwei Aktionen und den gleichen erwarteten Ertrag liefern, beeinflusst die Auswahl nur einer dieser Aktionen die Optimalität der Politik nicht. Wendet man dieses Prinzip auf jeden einzelnen Zustand an, wird die Politik deterministisch, während ihre Optimalität erhalten bleibt.
Optimale Wertfunktionen
Optimale Politiken teilen sich die gleichen Wertfunktionen — eine Tatsache, die deutlich wird, wenn wir betrachten, wie Politiken verglichen werden. Das bedeutet, dass optimale Politiken sowohl die Zustandswertfunktion als auch die Aktionswertfunktion gemeinsam haben.
Zusätzlich besitzen optimale Wertfunktionen eigene Bellman-Gleichungen, die ohne Bezug auf eine spezifische Politik formuliert werden können. Diese Gleichungen werden als Bellman-Optimalitätsgleichungen bezeichnet.
Optimale Zustandswertfunktion
Optimale Zustandswertfunktion (oder ) bezeichnet den maximal erwarteten Ertrag, der von einem bestimmten Zustand aus durch Befolgen einer optimalen Politik erreichbar ist.
Es kann mathematisch wie folgt definiert werden:
Bellman-Optimalitätsgleichung für diese Wertfunktion kann wie folgt hergeleitet werden:
Intuition
Wie bereits bekannt, existiert immer mindestens eine Politik, die sowohl optimal als auch deterministisch ist. Eine solche Politik würde für jeden Zustand konsequent eine bestimmte Aktion auswählen, die den erwarteten Ertrag maximiert. Daher beträgt die Wahrscheinlichkeit, diese optimale Aktion zu wählen, stets 1, während die Wahrscheinlichkeit, jede andere Aktion zu wählen, 0 ist. Aus diesem Grund benötigt die ursprüngliche Bellman-Gleichung keinen Summenoperator mehr. Da immer die bestmögliche Aktion gewählt wird, kann die Summe einfach durch das Maximum über alle verfügbaren Aktionen ersetzt werden.
Optimale Aktionswertfunktion
Optimale Aktionswertfunktion (oder ) bezeichnet den maximal erwarteten Ertrag, der durch Ausführen einer bestimmten Aktion in einem bestimmten Zustand und anschließendes Befolgen der optimalen Strategie erreichbar ist.
Sie kann mathematisch wie folgt definiert werden:
Bellman-Optimalitätsgleichung für diese Wertfunktion kann wie folgt hergeleitet werden:
Intuition
Ähnlich wie bei der Zustandswertfunktion kann die Summe durch das Maximum über alle verfügbaren Aktionen ersetzt werden.
Danke für Ihr Feedback!