Kursinnhold
Introduksjon til Forsterkende Læring
Introduksjon til Forsterkende Læring
Policyiterasjon
Ideen bak policy iteration er enkel:
- Start med en initial og ;
- Bruk policy evaluering for å oppdatere til det er konsistent med ;
- Bruk policy forbedring for å oppdatere til det er grådig med hensyn til ;
- Gjenta trinn 2-3 til konvergens.
I denne metoden er det ingen delvise oppdateringer:
- Under policy evaluering oppdateres verdiene for hver tilstand til de er konsistente med gjeldende policy;
- Under policy forbedring gjøres policy grådig med hensyn til verdifunksjonen.
Pseudokode
Alt var klart?
Takk for tilbakemeldingene dine!
Seksjon 3. Kapittel 7