Kursusindhold
Introduktion til Reinforcement Learning
Introduktion til Reinforcement Learning
Policyiteration
Ideen bag policy iteration er enkel:
- Vælg en initial og ;
- Brug policy evaluation til at opdatere , indtil det er konsistent med ;
- Brug policy improvement til at opdatere , indtil det er grådig i forhold til ;
- Gentag trin 2-3 indtil konvergens.
I denne metode er der ingen delvise opdateringer:
- Under policy evaluation opdateres værdierne for hver tilstand, indtil de er konsistente med den nuværende politik;
- Under policy improvement gøres politikken grådig i forhold til værdifunktionen.
Pseudokode
Var alt klart?
Tak for dine kommentarer!
Sektion 3. Kapitel 7