Policyiterasjon
Ideen bak policy iteration er enkel:
- Start med en initial π og v;
- Bruk policy evaluering for å oppdatere v til det er konsistent med π;
- Bruk policy forbedring for å oppdatere π til det er grådig med hensyn til v;
- Gjenta trinn 2-3 til konvergens.
I denne metoden er det ingen delvise oppdateringer:
- Under policy evaluering oppdateres verdiene for hver tilstand til de er konsistente med gjeldende policy;
- Under policy forbedring gjøres policy grådig med hensyn til verdifunksjonen.
Pseudokode
Alt var klart?
Takk for tilbakemeldingene dine!
Seksjon 3. Kapittel 7
Spør AI
Spør AI
Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår
Awesome!
Completion rate improved to 2.7
Policyiterasjon
Sveip for å vise menyen
Ideen bak policy iteration er enkel:
- Start med en initial π og v;
- Bruk policy evaluering for å oppdatere v til det er konsistent med π;
- Bruk policy forbedring for å oppdatere π til det er grådig med hensyn til v;
- Gjenta trinn 2-3 til konvergens.
I denne metoden er det ingen delvise oppdateringer:
- Under policy evaluering oppdateres verdiene for hver tilstand til de er konsistente med gjeldende policy;
- Under policy forbedring gjøres policy grådig med hensyn til verdifunksjonen.
Pseudokode
Alt var klart?
Takk for tilbakemeldingene dine!
Seksjon 3. Kapittel 7