Bellman-Gleichungen
Eine Bellman-Gleichung ist eine Funktionalgleichung, die eine Wertfunktion in rekursiver Form definiert.
Zur Verdeutlichung der Definition:
- Eine Funktionalgleichung ist eine Gleichung, deren Lösung eine Funktion ist. Bei der Bellman-Gleichung ist diese Lösung die Wertfunktion, für die die Gleichung formuliert wurde;
- Eine rekursive Form bedeutet, dass der Wert im aktuellen Zustand in Bezug auf Werte in zukünftigen Zuständen ausgedrückt wird.
Kurz gesagt, das Lösen der Bellman-Gleichung liefert die gewünschte Wertfunktion, und die Herleitung dieser Gleichung erfordert die Identifikation einer rekursiven Beziehung zwischen aktuellen und zukünftigen Zuständen.
Zustandswertfunktion
Zur Erinnerung: Hier ist eine Zustandswertfunktion in kompakter Form:
vπ(s)=Eπ[Gt∣St=s]Um die Bellman-Gleichung für diese Wertfunktion zu erhalten, wird die rechte Seite der Gleichung erweitert und eine rekursive Beziehung hergestellt:
vπ(s)=Eπ[Gt∣St=s]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s]=Eπ[Rt+1+γk=0∑∞γkRt+k+2∣St=s]=Eπ[Rt+1+γGt+1∣St=s]=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γEπ[Gt+1∣St+1=s′])=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γvπ(s′))Die letzte Gleichung in dieser Kette ist eine Bellman-Gleichung für die Zustandswertfunktion.
Intuition
Um den Wert eines Zustands s zu bestimmen:
- Berücksichtigung aller möglichen Aktionen a, die aus diesem Zustand heraus ausgeführt werden können, gewichtet nach der Wahrscheinlichkeit, mit der diese Aktion gemäß der aktuellen Politik π(a∣s) gewählt wird;
- Für jede Aktion a werden alle möglichen Folgezustände s′ und Belohnungen r betrachtet, gewichtet nach ihrer Wahrscheinlichkeit p(s′,r∣s,a);
- Für jedes dieser Ergebnisse wird die unmittelbare Belohnung r addiert sowie der diskontierte Wert des nächsten Zustands γvπ(s′).
Durch das Aufsummieren all dieser Möglichkeiten ergibt sich der gesamte erwartete Wert des Zustands s unter der aktuellen Politik.
Aktionswertfunktion
Hier ist eine Aktionswertfunktion in kompakter Form:
qπ(s,a)=Eπ[Gt∣St=s,At=a]Die Herleitung der Bellman-Gleichung für diese Funktion ist der vorherigen sehr ähnlich:
qπ(s,a)=Eπ[Gt∣St=s,At=a]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s,At=a]=Eπ[Rt+1+γk=0∑∞γkRt+k+2∣St=s,At=a]=Eπ[Rt+1+γGt+1∣St=s,At=a]=s′,r∑p(s′,r∣s,a)(r+γEπ[Gt+1∣St+1=s′])=s′,r∑p(s′,r∣s,a)(r+γa′∑π(a′∣s′)(Eπ[Gt+1∣St+1=s′,At+1=a′]))=s′,r∑p(s′,r∣s,a)(r+γa′∑π(a′∣s′)q(s′,a′))Die letzte Gleichung in dieser Kette ist eine Bellman-Gleichung für die Aktionswertfunktion.
Intuition
Um den Wert eines Zustands-Aktions-Paares (s,a) zu bestimmen:
- Alle möglichen nächsten Zustände s′ und Belohnungen r betrachten, gewichtet nach ihrer Wahrscheinlichkeit p(s′,r∣s,a);
- Für jedes dieser Ergebnisse die unmittelbare Belohnung r plus den diskontierten Wert des nächsten Zustands addieren;
- Um den Wert des nächsten Zustands s′ zu berechnen, für alle möglichen Aktionen a′ aus Zustand s′ den Aktionswert q(s′,a′) mit der Wahrscheinlichkeit multiplizieren, a′ im Zustand s′ unter der aktuellen Politik π(a′∣s′ zu wählen. Anschließend alles aufsummieren, um den endgültigen Wert zu erhalten.
Durch das Aufsummieren all dieser Möglichkeiten ergibt sich der gesamte erwartete Wert des Zustands-Aktions-Paares (s,a) unter der aktuellen Politik.
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen
Can you explain the difference between the state value function and the action value function?
How does the Bellman equation help in reinforcement learning?
Can you provide a simple example illustrating the Bellman equation?
Awesome!
Completion rate improved to 2.7
Bellman-Gleichungen
Swipe um das Menü anzuzeigen
Eine Bellman-Gleichung ist eine Funktionalgleichung, die eine Wertfunktion in rekursiver Form definiert.
Zur Verdeutlichung der Definition:
- Eine Funktionalgleichung ist eine Gleichung, deren Lösung eine Funktion ist. Bei der Bellman-Gleichung ist diese Lösung die Wertfunktion, für die die Gleichung formuliert wurde;
- Eine rekursive Form bedeutet, dass der Wert im aktuellen Zustand in Bezug auf Werte in zukünftigen Zuständen ausgedrückt wird.
Kurz gesagt, das Lösen der Bellman-Gleichung liefert die gewünschte Wertfunktion, und die Herleitung dieser Gleichung erfordert die Identifikation einer rekursiven Beziehung zwischen aktuellen und zukünftigen Zuständen.
Zustandswertfunktion
Zur Erinnerung: Hier ist eine Zustandswertfunktion in kompakter Form:
vπ(s)=Eπ[Gt∣St=s]Um die Bellman-Gleichung für diese Wertfunktion zu erhalten, wird die rechte Seite der Gleichung erweitert und eine rekursive Beziehung hergestellt:
vπ(s)=Eπ[Gt∣St=s]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s]=Eπ[Rt+1+γk=0∑∞γkRt+k+2∣St=s]=Eπ[Rt+1+γGt+1∣St=s]=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γEπ[Gt+1∣St+1=s′])=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γvπ(s′))Die letzte Gleichung in dieser Kette ist eine Bellman-Gleichung für die Zustandswertfunktion.
Intuition
Um den Wert eines Zustands s zu bestimmen:
- Berücksichtigung aller möglichen Aktionen a, die aus diesem Zustand heraus ausgeführt werden können, gewichtet nach der Wahrscheinlichkeit, mit der diese Aktion gemäß der aktuellen Politik π(a∣s) gewählt wird;
- Für jede Aktion a werden alle möglichen Folgezustände s′ und Belohnungen r betrachtet, gewichtet nach ihrer Wahrscheinlichkeit p(s′,r∣s,a);
- Für jedes dieser Ergebnisse wird die unmittelbare Belohnung r addiert sowie der diskontierte Wert des nächsten Zustands γvπ(s′).
Durch das Aufsummieren all dieser Möglichkeiten ergibt sich der gesamte erwartete Wert des Zustands s unter der aktuellen Politik.
Aktionswertfunktion
Hier ist eine Aktionswertfunktion in kompakter Form:
qπ(s,a)=Eπ[Gt∣St=s,At=a]Die Herleitung der Bellman-Gleichung für diese Funktion ist der vorherigen sehr ähnlich:
qπ(s,a)=Eπ[Gt∣St=s,At=a]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s,At=a]=Eπ[Rt+1+γk=0∑∞γkRt+k+2∣St=s,At=a]=Eπ[Rt+1+γGt+1∣St=s,At=a]=s′,r∑p(s′,r∣s,a)(r+γEπ[Gt+1∣St+1=s′])=s′,r∑p(s′,r∣s,a)(r+γa′∑π(a′∣s′)(Eπ[Gt+1∣St+1=s′,At+1=a′]))=s′,r∑p(s′,r∣s,a)(r+γa′∑π(a′∣s′)q(s′,a′))Die letzte Gleichung in dieser Kette ist eine Bellman-Gleichung für die Aktionswertfunktion.
Intuition
Um den Wert eines Zustands-Aktions-Paares (s,a) zu bestimmen:
- Alle möglichen nächsten Zustände s′ und Belohnungen r betrachten, gewichtet nach ihrer Wahrscheinlichkeit p(s′,r∣s,a);
- Für jedes dieser Ergebnisse die unmittelbare Belohnung r plus den diskontierten Wert des nächsten Zustands addieren;
- Um den Wert des nächsten Zustands s′ zu berechnen, für alle möglichen Aktionen a′ aus Zustand s′ den Aktionswert q(s′,a′) mit der Wahrscheinlichkeit multiplizieren, a′ im Zustand s′ unter der aktuellen Politik π(a′∣s′ zu wählen. Anschließend alles aufsummieren, um den endgültigen Wert zu erhalten.
Durch das Aufsummieren all dieser Möglichkeiten ergibt sich der gesamte erwartete Wert des Zustands-Aktions-Paares (s,a) unter der aktuellen Politik.
Danke für Ihr Feedback!