Policyiterasjon
Ideen bak policy iteration er enkel:
- Start med en initial π og v;
- Bruk policy evaluering for å oppdatere v til det er konsistent med π;
- Bruk policy forbedring for å oppdatere π til det er grådig med hensyn til v;
- Gjenta trinn 2-3 til konvergens.
I denne metoden er det ingen delvise oppdateringer:
- Under policy evaluering oppdateres verdiene for hver tilstand til de er konsistente med gjeldende policy;
- Under policy forbedring gjøres policy grådig med hensyn til verdifunksjonen.
Pseudokode
Alt var klart?
Takk for tilbakemeldingene dine!
Seksjon 3. Kapittel 7
Spør AI
Spør AI
Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår
Suggested prompts:
Can you explain what policy evaluation and policy improvement mean in this context?
How does policy iteration differ from value iteration?
Can you walk me through the pseudocode step by step?
Awesome!
Completion rate improved to 2.7
Policyiterasjon
Sveip for å vise menyen
Ideen bak policy iteration er enkel:
- Start med en initial π og v;
- Bruk policy evaluering for å oppdatere v til det er konsistent med π;
- Bruk policy forbedring for å oppdatere π til det er grådig med hensyn til v;
- Gjenta trinn 2-3 til konvergens.
I denne metoden er det ingen delvise oppdateringer:
- Under policy evaluering oppdateres verdiene for hver tilstand til de er konsistente med gjeldende policy;
- Under policy forbedring gjøres policy grådig med hensyn til verdifunksjonen.
Pseudokode
Alt var klart?
Takk for tilbakemeldingene dine!
Seksjon 3. Kapittel 7