Kursinhalt
Einführung in das Reinforcement Learning
Einführung in das Reinforcement Learning
Wertiteration
Obwohl die Policy Iteration ein effektiver Ansatz zur Lösung von MDPs ist, weist sie einen erheblichen Nachteil auf: Jeder Iterationsschritt beinhaltet eine separate Policy Evaluation. Wird die Policy Evaluation iterativ durchgeführt, sind mehrere Durchläufe über den gesamten Zustandsraum erforderlich, was zu erheblichem Rechenaufwand und längeren Berechnungszeiten führt.
Eine gute Alternative ist die Value Iteration, eine Methode, die Policy Evaluation und Policy Improvement in einem einzigen Schritt zusammenführt. Diese Methode aktualisiert die Wertfunktion direkt, bis sie zur optimalen Wertfunktion konvergiert. Nach der Konvergenz kann die optimale Policy direkt aus dieser optimalen Wertfunktion abgeleitet werden.
Funktionsweise
Die Value Iteration arbeitet, indem sie während der Policy Evaluation nur ein Backup durchführt, bevor die Policy Improvement erfolgt. Dies führt zur folgenden Aktualisierungsformel:
Durch die Umwandlung der Bellman-Optimalitätsgleichung in eine Aktualisierungsregel werden Policy Evaluation und Policy Improvement in einem einzigen Schritt zusammengeführt.
Pseudocode
Danke für Ihr Feedback!