Lernen Wertiteration | Dynamische Programmierung

Obwohl die Policy Iteration ein effektiver Ansatz zur Lösung von MDPs ist, weist sie einen erheblichen Nachteil auf: Jeder Iterationsschritt beinhaltet eine separate Policy Evaluation. Wird die Policy Evaluation iterativ durchgeführt, sind mehrere Durchläufe über den gesamten Zustandsraum erforderlich, was zu erheblichem Rechenaufwand und längeren Berechnungszeiten führt.

Eine gute Alternative ist die Value Iteration, eine Methode, die Policy Evaluation und Policy Improvement in einem einzigen Schritt zusammenführt. Diese Methode aktualisiert die Wertfunktion direkt, bis sie zur optimalen Wertfunktion konvergiert. Nach Erreichen der Konvergenz kann die optimale Policy direkt aus dieser optimalen Wertfunktion abgeleitet werden.

Funktionsweise

Value Iteration arbeitet, indem während der Policy Evaluation nur ein Backup durchgeführt wird, bevor die Policy Improvement erfolgt. Dies führt zur folgenden Aktualisierungsformel:

v_{k+1}(s) \gets \max_a \sum_{s',r}p(s',r|s,a)\Bigl(r+\gamma v_k(s')\Bigr) \qquad \forall s \in S

Durch die Umwandlung der Bellman-Optimalitätsgleichung in eine Aktualisierungsregel werden Policy Evaluation und Policy Improvement in einem einzigen Schritt zusammengeführt.

Pseudocode

War alles klar?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 8

Fragen Sie AI

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Swipe um das Menü anzuzeigen