Policyiterasjon
Ideen bak policy iteration er enkel:
- Start med en initial π og v;
- Bruk policy-evaluering for å oppdatere v til det er konsistent med π;
- Bruk policy-forbedring for å oppdatere π til det er grådig med hensyn til v;
- Gjenta trinn 2-3 til konvergens.
I denne metoden er det ingen delvise oppdateringer:
- Under policy-evaluering oppdateres verdiene for hver tilstand til de er konsistente med gjeldende policy;
- Under policy-forbedring gjøres policyen grådig med hensyn til verdifunksjonen.
Pseudokode
Alt var klart?
Takk for tilbakemeldingene dine!
Seksjon 3. Kapittel 7
Spør AI
Spør AI
Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår
Suggested prompts:
Can you explain what policy evaluation and policy improvement mean in this context?
What does it mean for a policy to be "greedy" with respect to a value function?
Can you walk me through the pseudocode step by step?
Awesome!
Completion rate improved to 2.7
Policyiterasjon
Sveip for å vise menyen
Ideen bak policy iteration er enkel:
- Start med en initial π og v;
- Bruk policy-evaluering for å oppdatere v til det er konsistent med π;
- Bruk policy-forbedring for å oppdatere π til det er grådig med hensyn til v;
- Gjenta trinn 2-3 til konvergens.
I denne metoden er det ingen delvise oppdateringer:
- Under policy-evaluering oppdateres verdiene for hver tilstand til de er konsistente med gjeldende policy;
- Under policy-forbedring gjøres policyen grådig med hensyn til verdifunksjonen.
Pseudokode
Alt var klart?
Takk for tilbakemeldingene dine!
Seksjon 3. Kapittel 7