Policyiterasjon
Ideen bak policy iteration er enkel:
- Start med en initial π og v;
- Bruk policy-evaluering for å oppdatere v til det er konsistent med π;
- Bruk policy-forbedring for å oppdatere π til den er grådig med hensyn til v;
- Gjenta trinn 2-3 til konvergens.
I denne metoden er det ingen delvise oppdateringer:
- Under policy-evaluering oppdateres verdiene for hver tilstand til de er konsistente med gjeldende policy;
- Under policy-forbedring gjøres policyen grådig med hensyn til verdifunksjonen.
Pseudokode
Alt var klart?
Takk for tilbakemeldingene dine!
Seksjon 3. Kapittel 7
Spør AI
Spør AI
Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår
Awesome!
Completion rate improved to 2.7
Policyiterasjon
Sveip for å vise menyen
Ideen bak policy iteration er enkel:
- Start med en initial π og v;
- Bruk policy-evaluering for å oppdatere v til det er konsistent med π;
- Bruk policy-forbedring for å oppdatere π til den er grådig med hensyn til v;
- Gjenta trinn 2-3 til konvergens.
I denne metoden er det ingen delvise oppdateringer:
- Under policy-evaluering oppdateres verdiene for hver tilstand til de er konsistente med gjeldende policy;
- Under policy-forbedring gjøres policyen grådig med hensyn til verdifunksjonen.
Pseudokode
Alt var klart?
Takk for tilbakemeldingene dine!
Seksjon 3. Kapittel 7