Politikverbesserung
Politikverbesserung ist ein Prozess zur Verbesserung der Politik auf Grundlage aktueller Schätzungen der Wertfunktion.
Wie bei der Politikevaluation kann die Politikverbesserung sowohl mit der Zustandswertfunktion als auch mit der Aktionswertfunktion arbeiten. Für DP-Methoden wird jedoch die Zustandswertfunktion verwendet.
Nachdem Sie nun die Zustandswertfunktion für eine beliebige Politik schätzen können, ist der nächste logische Schritt zu untersuchen, ob es Politiken gibt, die besser als die aktuelle sind. Eine Möglichkeit besteht darin, eine andere Aktion a in einem Zustand s auszuführen und anschließend der aktuellen Politik zu folgen. Falls dies bekannt vorkommt, liegt das daran, dass dies der Definition der Aktionswertfunktion entspricht:
qπ(s,a)=s′,r∑p(s′,r∣s,a)(r+γvπ(s′))Wenn dieser neue Wert größer ist als der ursprüngliche Zustandswert vπ(s), deutet dies darauf hin, dass das Ausführen der Aktion a im Zustand s und das anschließende Fortsetzen mit der Politik π zu besseren Ergebnissen führt als das strikte Befolgen der Politik π. Da Zustände unabhängig sind, ist es optimal, immer die Aktion a zu wählen, sobald der Zustand s erreicht wird. Daher kann eine verbesserte Politik π′ konstruiert werden, die mit π identisch ist, außer dass sie im Zustand s die Aktion a auswählt, was der ursprünglichen Politik π überlegen wäre.
Politik-Verbesserungssatz
Die oben beschriebene Argumentation kann als Politik-Verbesserungssatz generalisiert werden:
⟹qπ(s,π′(s))≥vπ(s)vπ′(s)≥vπ(s)∀s∈S∀s∈SDer Beweis dieses Theorems ist relativ einfach und kann durch eine wiederholte Substitution durchgeführt werden:
vπ(s)≤qπ(s,π′(s))=Eπ′[Rt+1+γvπ(St+1)∣St=s]≤Eπ′[Rt+1+γqπ(St+1,π′(St+1))∣St=s]=Eπ′[Rt+1+γEπ′[Rt+2+γvπ(St+2)]∣St=s]=Eπ′[Rt+1+γRt+2+γ2vπ(St+2)∣St=s]...≤Eπ′[Rt+1+γRt+2+γ2Rt+3+...∣St=s]=vπ′(s)Verbesserungsstrategie
Das Aktualisieren von Aktionen für bestimmte Zustände kann zu Verbesserungen führen, jedoch ist es effektiver, die Aktionen für alle Zustände gleichzeitig zu aktualisieren. Für jeden Zustand s wird dabei die Aktion a gewählt, die den Aktionswert qπ(s,a) maximiert:
π′(s)←aargmaxqπ(s,a)←aargmaxs′,r∑p(s′,r∣s,a)(r+γvπ(s′))wobei argmax (Abkürzung für Argument des Maximums) ein Operator ist, der den Wert der Variablen zurückgibt, der eine gegebene Funktion maximiert.
Die resultierende gierige Politik, bezeichnet als π′, erfüllt durch ihre Konstruktion die Bedingungen des Policy-Improvement-Theorems und garantiert, dass π′ mindestens so gut wie die ursprüngliche Politik π ist und typischerweise besser.
Falls π′ genauso gut wie, aber nicht besser als π ist, dann sind sowohl π′ als auch π optimale Politiken, da ihre Wertfunktionen gleich sind und die Bellman-Optimalitätsgleichung erfüllen:
vπ(s)=amaxs′,r∑p(s′,r∣s,a)(r+γvπ(s′))Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen
Awesome!
Completion rate improved to 2.7
Politikverbesserung
Swipe um das Menü anzuzeigen
Politikverbesserung ist ein Prozess zur Verbesserung der Politik auf Grundlage aktueller Schätzungen der Wertfunktion.
Wie bei der Politikevaluation kann die Politikverbesserung sowohl mit der Zustandswertfunktion als auch mit der Aktionswertfunktion arbeiten. Für DP-Methoden wird jedoch die Zustandswertfunktion verwendet.
Nachdem Sie nun die Zustandswertfunktion für eine beliebige Politik schätzen können, ist der nächste logische Schritt zu untersuchen, ob es Politiken gibt, die besser als die aktuelle sind. Eine Möglichkeit besteht darin, eine andere Aktion a in einem Zustand s auszuführen und anschließend der aktuellen Politik zu folgen. Falls dies bekannt vorkommt, liegt das daran, dass dies der Definition der Aktionswertfunktion entspricht:
qπ(s,a)=s′,r∑p(s′,r∣s,a)(r+γvπ(s′))Wenn dieser neue Wert größer ist als der ursprüngliche Zustandswert vπ(s), deutet dies darauf hin, dass das Ausführen der Aktion a im Zustand s und das anschließende Fortsetzen mit der Politik π zu besseren Ergebnissen führt als das strikte Befolgen der Politik π. Da Zustände unabhängig sind, ist es optimal, immer die Aktion a zu wählen, sobald der Zustand s erreicht wird. Daher kann eine verbesserte Politik π′ konstruiert werden, die mit π identisch ist, außer dass sie im Zustand s die Aktion a auswählt, was der ursprünglichen Politik π überlegen wäre.
Politik-Verbesserungssatz
Die oben beschriebene Argumentation kann als Politik-Verbesserungssatz generalisiert werden:
⟹qπ(s,π′(s))≥vπ(s)vπ′(s)≥vπ(s)∀s∈S∀s∈SDer Beweis dieses Theorems ist relativ einfach und kann durch eine wiederholte Substitution durchgeführt werden:
vπ(s)≤qπ(s,π′(s))=Eπ′[Rt+1+γvπ(St+1)∣St=s]≤Eπ′[Rt+1+γqπ(St+1,π′(St+1))∣St=s]=Eπ′[Rt+1+γEπ′[Rt+2+γvπ(St+2)]∣St=s]=Eπ′[Rt+1+γRt+2+γ2vπ(St+2)∣St=s]...≤Eπ′[Rt+1+γRt+2+γ2Rt+3+...∣St=s]=vπ′(s)Verbesserungsstrategie
Das Aktualisieren von Aktionen für bestimmte Zustände kann zu Verbesserungen führen, jedoch ist es effektiver, die Aktionen für alle Zustände gleichzeitig zu aktualisieren. Für jeden Zustand s wird dabei die Aktion a gewählt, die den Aktionswert qπ(s,a) maximiert:
π′(s)←aargmaxqπ(s,a)←aargmaxs′,r∑p(s′,r∣s,a)(r+γvπ(s′))wobei argmax (Abkürzung für Argument des Maximums) ein Operator ist, der den Wert der Variablen zurückgibt, der eine gegebene Funktion maximiert.
Die resultierende gierige Politik, bezeichnet als π′, erfüllt durch ihre Konstruktion die Bedingungen des Policy-Improvement-Theorems und garantiert, dass π′ mindestens so gut wie die ursprüngliche Politik π ist und typischerweise besser.
Falls π′ genauso gut wie, aber nicht besser als π ist, dann sind sowohl π′ als auch π optimale Politiken, da ihre Wertfunktionen gleich sind und die Bellman-Optimalitätsgleichung erfüllen:
vπ(s)=amaxs′,r∑p(s′,r∣s,a)(r+γvπ(s′))Danke für Ihr Feedback!