Beleiditeratie
Het idee achter policy iteration is eenvoudig:
- Neem een initiële π en v;
- Gebruik beleidsevaluatie om v bij te werken totdat deze consistent is met π;
- Gebruik beleidsverbetering om π bij te werken totdat deze greedy is ten opzichte van v;
- Herhaal stappen 2-3 tot convergentie.
Bij deze methode zijn er geen gedeeltelijke updates:
- Tijdens beleidsevaluatie worden waarden voor elke toestand bijgewerkt totdat ze consistent zijn met het huidige beleid;
- Tijdens beleidsverbetering wordt het beleid greedy gemaakt ten opzichte van de waardefunctie.
Pseudocode
Was alles duidelijk?
Bedankt voor je feedback!
Sectie 3. Hoofdstuk 7
Vraag AI
Vraag AI
Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.
Suggested prompts:
Can you explain what policy evaluation and policy improvement mean in this context?
What does it mean for a policy to be "greedy" with respect to a value function?
Can you walk me through the pseudocode step by step?
Awesome!
Completion rate improved to 2.7
Beleiditeratie
Veeg om het menu te tonen
Het idee achter policy iteration is eenvoudig:
- Neem een initiële π en v;
- Gebruik beleidsevaluatie om v bij te werken totdat deze consistent is met π;
- Gebruik beleidsverbetering om π bij te werken totdat deze greedy is ten opzichte van v;
- Herhaal stappen 2-3 tot convergentie.
Bij deze methode zijn er geen gedeeltelijke updates:
- Tijdens beleidsevaluatie worden waarden voor elke toestand bijgewerkt totdat ze consistent zijn met het huidige beleid;
- Tijdens beleidsverbetering wordt het beleid greedy gemaakt ten opzichte van de waardefunctie.
Pseudocode
Was alles duidelijk?
Bedankt voor je feedback!
Sectie 3. Hoofdstuk 7