Politikiteration
Swipe um das Menü anzuzeigen
Die Idee hinter der Policy Iteration ist einfach:
- Eine anfängliche π und v wählen;
- Mit der Policy-Bewertung v aktualisieren, bis es mit π konsistent ist;
- Mit der Policy-Verbesserung π aktualisieren, bis es bezüglich v gierig ist;
- Schritte 2-3 wiederholen, bis Konvergenz erreicht ist.
Bei dieser Methode gibt es keine partiellen Aktualisierungen:
- Während der Policy-Bewertung werden die Werte für jeden Zustand aktualisiert, bis sie mit der aktuellen Policy übereinstimmen;
- Während der Policy-Verbesserung wird die Policy bezüglich der Wertfunktion gierig gemacht.
Pseudocode
War alles klar?
Danke für Ihr Feedback!
Abschnitt 3. Kapitel 7
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen
Abschnitt 3. Kapitel 7