Policyiteration
Idén bakom policyiteration är enkel:
- Välj en initial π och v;
- Använd policyevaluering för att uppdatera v tills det är konsistent med π;
- Använd policyförbättring för att uppdatera π tills den är girig med avseende på v;
- Upprepa steg 2-3 tills konvergens.
I denna metod sker inga partiella uppdateringar:
- Under policyevaluering uppdateras värden för varje tillstånd tills de är konsistenta med aktuell policy;
- Under policyförbättring görs policyn girig med avseende på värdefunktionen.
Pseudokod
Var allt tydligt?
Tack för dina kommentarer!
Avsnitt 3. Kapitel 7
Fråga AI
Fråga AI
Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal
Suggested prompts:
Can you explain what policy evaluation and policy improvement mean in this context?
What does it mean for a policy to be "greedy" with respect to a value function?
Can you walk me through the pseudocode step by step?
Awesome!
Completion rate improved to 2.7
Policyiteration
Svep för att visa menyn
Idén bakom policyiteration är enkel:
- Välj en initial π och v;
- Använd policyevaluering för att uppdatera v tills det är konsistent med π;
- Använd policyförbättring för att uppdatera π tills den är girig med avseende på v;
- Upprepa steg 2-3 tills konvergens.
I denna metod sker inga partiella uppdateringar:
- Under policyevaluering uppdateras värden för varje tillstånd tills de är konsistenta med aktuell policy;
- Under policyförbättring görs policyn girig med avseende på värdefunktionen.
Pseudokod
Var allt tydligt?
Tack för dina kommentarer!
Avsnitt 3. Kapitel 7