Kursinhalt
Einführung in das Reinforcement Learning
Einführung in das Reinforcement Learning
Bellman-Gleichungen
Eine Bellman-Gleichung ist eine Funktionalgleichung, die eine Wertfunktion in rekursiver Form definiert.
Zur Verdeutlichung der Definition:
- Eine Funktionalgleichung ist eine Gleichung, deren Lösung eine Funktion ist. Bei der Bellman-Gleichung ist diese Lösung die Wertfunktion, für die die Gleichung aufgestellt wurde;
- Eine rekursive Form bedeutet, dass der Wert im aktuellen Zustand in Bezug auf Werte in zukünftigen Zuständen ausgedrückt wird.
Kurz gesagt, das Lösen der Bellman-Gleichung liefert die gewünschte Wertfunktion, und das Herleiten dieser Gleichung erfordert das Erkennen einer rekursiven Beziehung zwischen aktuellen und zukünftigen Zuständen.
Zustandswertfunktion
Zur Erinnerung, hier ist eine Zustandswertfunktion in kompakter Form:
Um die Bellman-Gleichung für diese Wertfunktion zu erhalten, erweitern wir die rechte Seite der Gleichung und stellen eine rekursive Beziehung her:
Die letzte Gleichung in dieser Kette ist eine Bellman-Gleichung für die Zustandswertfunktion.
Intuition
Um den Wert eines Zustands zu bestimmen:
- Berücksichtigung aller möglichen Aktionen , die aus diesem Zustand heraus gewählt werden können, gewichtet nach der Wahrscheinlichkeit, mit der diese Aktion gemäß der aktuellen Politik gewählt wird;
- Für jede Aktion werden alle möglichen Folgezustände und Belohnungen betrachtet, gewichtet nach deren Wahrscheinlichkeit ;
- Für jedes dieser Ergebnisse wird die unmittelbare Belohnung plus der diskontierte Wert des nächsten Zustands addiert.
Durch das Summieren all dieser Möglichkeiten ergibt sich der gesamte erwartete Wert des Zustands unter der aktuellen Politik.
Aktionswertfunktion
Hier ist eine Aktionswertfunktion in kompakter Form:
Die Herleitung der Bellman-Gleichung für diese Funktion ist der vorherigen sehr ähnlich:
Die letzte Gleichung in dieser Kette ist eine Bellman-Gleichung für die Aktionswertfunktion.
Intuition
Um den Wert eines Zustands-Aktions-Paares zu bestimmen:
- Berücksichtigen aller möglichen Folgezustände und Belohnungen , gewichtet nach deren Wahrscheinlichkeit ;
- Für jedes dieser Ergebnisse wird die unmittelbare Belohnung addiert, die erhalten wird, zuzüglich des diskontierten Werts des nächsten Zustands;
- Zur Berechnung des Werts des nächsten Zustands werden für alle möglichen Aktionen aus Zustand der Aktionswert mit der Wahrscheinlichkeit multipliziert, im Zustand gemäß der aktuellen Politik zu wählen. Anschließend wird alles aufsummiert, um den endgültigen Wert zu erhalten.
Durch das Zusammenfassen all dieser Möglichkeiten ergibt sich der gesamte erwartete Wert des Zustands-Aktions-Paares unter der aktuellen Politik.
Danke für Ihr Feedback!