Policyiteration
Idén bakom policyiteration är enkel:
- Välj en initial π och v;
- Använd policyevaluering för att uppdatera v tills det är konsistent med π;
- Använd policyförbättring för att uppdatera π tills den är girig med avseende på v;
- Upprepa steg 2-3 tills konvergens.
I denna metod sker inga partiella uppdateringar:
- Under policyevaluering uppdateras värden för varje tillstånd tills de är konsistenta med aktuell policy;
- Under policyförbättring görs policyn girig med avseende på värdefunktionen.
Pseudokod
Var allt tydligt?
Tack för dina kommentarer!
Avsnitt 3. Kapitel 7
Fråga AI
Fråga AI
Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal
Awesome!
Completion rate improved to 2.7
Policyiteration
Svep för att visa menyn
Idén bakom policyiteration är enkel:
- Välj en initial π och v;
- Använd policyevaluering för att uppdatera v tills det är konsistent med π;
- Använd policyförbättring för att uppdatera π tills den är girig med avseende på v;
- Upprepa steg 2-3 tills konvergens.
I denna metod sker inga partiella uppdateringar:
- Under policyevaluering uppdateras värden för varje tillstånd tills de är konsistenta med aktuell policy;
- Under policyförbättring görs policyn girig med avseende på värdefunktionen.
Pseudokod
Var allt tydligt?
Tack för dina kommentarer!
Avsnitt 3. Kapitel 7