Kursinhalt
Einführung in das Reinforcement Learning
Einführung in das Reinforcement Learning
Politikiteration
Die Idee hinter der Policy Iteration ist einfach:
- Wähle eine anfängliche und ;
- Verwende die Policy-Bewertung, um zu aktualisieren, bis es mit konsistent ist;
- Verwende die Policy-Verbesserung, um zu aktualisieren, bis sie bezüglich gierig ist;
- Wiederhole die Schritte 2-3 bis zur Konvergenz.
Bei dieser Methode gibt es keine partiellen Aktualisierungen:
- Während der Policy-Bewertung werden die Werte für jeden Zustand aktualisiert, bis sie mit der aktuellen Policy übereinstimmen;
- Während der Policy-Verbesserung wird die Policy bezüglich der Wertfunktion gierig gemacht.
Pseudocode
War alles klar?
Danke für Ihr Feedback!
Abschnitt 3. Kapitel 7