Beleiditeratie
Veeg om het menu te tonen
Het idee achter policy iteration is eenvoudig:
- Neem een initiële π en v;
- Gebruik beleidsevaluatie om v bij te werken totdat deze consistent is met π;
- Gebruik beleidsverbetering om π bij te werken totdat deze hebzuchtig is ten opzichte van v;
- Herhaal stappen 2-3 tot convergentie.
Bij deze methode zijn er geen gedeeltelijke updates:
- Tijdens beleidsevaluatie worden waarden voor elke toestand bijgewerkt totdat ze consistent zijn met het huidige beleid;
- Tijdens beleidsverbetering wordt het beleid hebzuchtig gemaakt ten opzichte van de waardefunctie.
Pseudocode
Was alles duidelijk?
Bedankt voor je feedback!
Sectie 3. Hoofdstuk 7
Vraag AI
Vraag AI
Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.
Sectie 3. Hoofdstuk 7