Politikiteration
Die Idee hinter der Policy Iteration ist einfach:
- Eine anfängliche π und v wählen;
- Mit der Policy-Bewertung v aktualisieren, bis es mit π konsistent ist;
- Mit der Policy-Verbesserung π aktualisieren, bis es bezüglich v gierig ist;
- Schritte 2-3 wiederholen, bis Konvergenz erreicht ist.
Bei dieser Methode gibt es keine partiellen Aktualisierungen:
- Während der Policy-Bewertung werden die Werte für jeden Zustand aktualisiert, bis sie mit der aktuellen Policy übereinstimmen;
- Während der Policy-Verbesserung wird die Policy bezüglich der Wertfunktion gierig gemacht.
Pseudocode
War alles klar?
Danke für Ihr Feedback!
Abschnitt 3. Kapitel 7
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen
Suggested prompts:
Can you explain what policy evaluation and policy improvement mean in this context?
What does it mean for a policy to be "greedy" with respect to a value function?
Can you walk me through the pseudocode step by step?
Awesome!
Completion rate improved to 2.7
Politikiteration
Swipe um das Menü anzuzeigen
Die Idee hinter der Policy Iteration ist einfach:
- Eine anfängliche π und v wählen;
- Mit der Policy-Bewertung v aktualisieren, bis es mit π konsistent ist;
- Mit der Policy-Verbesserung π aktualisieren, bis es bezüglich v gierig ist;
- Schritte 2-3 wiederholen, bis Konvergenz erreicht ist.
Bei dieser Methode gibt es keine partiellen Aktualisierungen:
- Während der Policy-Bewertung werden die Werte für jeden Zustand aktualisiert, bis sie mit der aktuellen Policy übereinstimmen;
- Während der Policy-Verbesserung wird die Policy bezüglich der Wertfunktion gierig gemacht.
Pseudocode
War alles klar?
Danke für Ihr Feedback!
Abschnitt 3. Kapitel 7