Kursinnehåll
Introduktion till Förstärkningsinlärning
Introduktion till Förstärkningsinlärning
Policyiteration
Idén bakom policyiteration är enkel:
- Välj en initial och ;
- Använd policyevaluering för att uppdatera tills det är konsistent med ;
- Använd policyförbättring för att uppdatera tills den är girig med avseende på ;
- Upprepa steg 2-3 tills konvergens.
I denna metod sker inga partiella uppdateringar:
- Under policyevaluering uppdateras värden för varje tillstånd tills de är konsistenta med aktuell policy;
- Under policyförbättring görs policyn girig med avseende på värdefunktionen.
Pseudokod
Var allt tydligt?
Tack för dina kommentarer!
Avsnitt 3. Kapitel 7