Policyiteration
Idén bakom policyiteration är enkel:
- Välj en initial π och v;
- Använd policyevaluering för att uppdatera v tills det är konsistent med π;
- Använd policyförbättring för att uppdatera π tills den är girig med avseende på v;
- Upprepa steg 2-3 tills konvergens.
I denna metod sker inga partiella uppdateringar:
- Under policyevaluering uppdateras värden för varje tillstånd tills de är konsistenta med aktuell policy;
- Under policyförbättring görs policyn girig med avseende på värdefunktionen.
Pseudokod
Var allt tydligt?
Tack för dina kommentarer!
Avsnitt 3. Kapitel 7
Fråga AI
Fråga AI
Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal
Suggested prompts:
Can you explain what policy evaluation and policy improvement mean in this context?
How does policy iteration differ from value iteration?
Can you walk me through the pseudocode step by step?
Awesome!
Completion rate improved to 2.7
Policyiteration
Svep för att visa menyn
Idén bakom policyiteration är enkel:
- Välj en initial π och v;
- Använd policyevaluering för att uppdatera v tills det är konsistent med π;
- Använd policyförbättring för att uppdatera π tills den är girig med avseende på v;
- Upprepa steg 2-3 tills konvergens.
I denna metod sker inga partiella uppdateringar:
- Under policyevaluering uppdateras värden för varje tillstånd tills de är konsistenta med aktuell policy;
- Under policyförbättring görs policyn girig med avseende på värdefunktionen.
Pseudokod
Var allt tydligt?
Tack för dina kommentarer!
Avsnitt 3. Kapitel 7