Beleiditeratie
Het idee achter policy iteration is eenvoudig:
- Neem een initiële π en v;
- Gebruik beleidsevaluatie om v bij te werken totdat deze consistent is met π;
- Gebruik beleidsverbetering om π bij te werken totdat deze gulzig is ten opzichte van v;
- Herhaal stappen 2-3 tot convergentie.
Bij deze methode zijn er geen gedeeltelijke updates:
- Tijdens beleidsevaluatie worden waarden voor elke toestand bijgewerkt totdat ze consistent zijn met het huidige beleid;
- Tijdens beleidsverbetering wordt het beleid gulzig gemaakt ten opzichte van de waardefunctie.
Pseudocode
Was alles duidelijk?
Bedankt voor je feedback!
Sectie 3. Hoofdstuk 7
Vraag AI
Vraag AI
Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.
Awesome!
Completion rate improved to 2.7
Beleiditeratie
Veeg om het menu te tonen
Het idee achter policy iteration is eenvoudig:
- Neem een initiële π en v;
- Gebruik beleidsevaluatie om v bij te werken totdat deze consistent is met π;
- Gebruik beleidsverbetering om π bij te werken totdat deze gulzig is ten opzichte van v;
- Herhaal stappen 2-3 tot convergentie.
Bij deze methode zijn er geen gedeeltelijke updates:
- Tijdens beleidsevaluatie worden waarden voor elke toestand bijgewerkt totdat ze consistent zijn met het huidige beleid;
- Tijdens beleidsverbetering wordt het beleid gulzig gemaakt ten opzichte van de waardefunctie.
Pseudocode
Was alles duidelijk?
Bedankt voor je feedback!
Sectie 3. Hoofdstuk 7