Politikiteration
Ideen bag policy iteration er enkel:
- Vælg en initial π og v;
- Brug policy evaluation til at opdatere v, indtil det er konsistent med π;
- Brug policy improvement til at opdatere π, indtil det er grådig i forhold til v;
- Gentag trin 2-3 indtil konvergens.
I denne metode er der ingen delvise opdateringer:
- Under policy evaluation opdateres værdierne for hver tilstand, indtil de er konsistente med den nuværende politik;
- Under policy improvement gøres politikken grådig i forhold til værdifunktionen.
Pseudokode
Var alt klart?
Tak for dine kommentarer!
Sektion 3. Kapitel 7
Spørg AI
Spørg AI
Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat
Suggested prompts:
Can you explain what policy evaluation and policy improvement mean in this context?
What does it mean for a policy to be "greedy" with respect to a value function?
Can you walk me through the pseudocode step by step?
Awesome!
Completion rate improved to 2.7
Politikiteration
Stryg for at vise menuen
Ideen bag policy iteration er enkel:
- Vælg en initial π og v;
- Brug policy evaluation til at opdatere v, indtil det er konsistent med π;
- Brug policy improvement til at opdatere π, indtil det er grådig i forhold til v;
- Gentag trin 2-3 indtil konvergens.
I denne metode er der ingen delvise opdateringer:
- Under policy evaluation opdateres værdierne for hver tilstand, indtil de er konsistente med den nuværende politik;
- Under policy improvement gøres politikken grådig i forhold til værdifunktionen.
Pseudokode
Var alt klart?
Tak for dine kommentarer!
Sektion 3. Kapitel 7