Policyiteration
Ideen bag policy iteration er enkel:
- Vælg en initial π og v;
- Brug policy evaluation til at opdatere v, indtil det er konsistent med π;
- Brug policy improvement til at opdatere π, indtil det er grådig i forhold til v;
- Gentag trin 2-3 indtil konvergens.
I denne metode er der ingen delvise opdateringer:
- Under policy evaluation opdateres værdierne for hver tilstand, indtil de er konsistente med den nuværende politik;
- Under policy improvement gøres politikken grådig i forhold til værdifunktionen.
Pseudokode
Var alt klart?
Tak for dine kommentarer!
Sektion 3. Kapitel 7
Spørg AI
Spørg AI
Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat
Awesome!
Completion rate improved to 2.7
Policyiteration
Stryg for at vise menuen
Ideen bag policy iteration er enkel:
- Vælg en initial π og v;
- Brug policy evaluation til at opdatere v, indtil det er konsistent med π;
- Brug policy improvement til at opdatere π, indtil det er grådig i forhold til v;
- Gentag trin 2-3 indtil konvergens.
I denne metode er der ingen delvise opdateringer:
- Under policy evaluation opdateres værdierne for hver tilstand, indtil de er konsistente med den nuværende politik;
- Under policy improvement gøres politikken grådig i forhold til værdifunktionen.
Pseudokode
Var alt klart?
Tak for dine kommentarer!
Sektion 3. Kapitel 7