Cursusinhoud
Introductie tot Reinforcement Learning
Introductie tot Reinforcement Learning
Beleiditeratie
Het idee achter policy iteration is eenvoudig:
- Neem een initiële en ;
- Gebruik beleidsevaluatie om bij te werken totdat deze consistent is met ;
- Gebruik beleidsverbetering om bij te werken totdat deze gulzig is ten opzichte van ;
- Herhaal stappen 2-3 tot convergentie.
Bij deze methode zijn er geen gedeeltelijke updates:
- Tijdens beleidsevaluatie worden waarden voor elke toestand bijgewerkt totdat ze consistent zijn met het huidige beleid;
- Tijdens beleidsverbetering wordt het beleid gulzig gemaakt ten opzichte van de waardefunctie.
Pseudocode
Was alles duidelijk?
Bedankt voor je feedback!
Sectie 3. Hoofdstuk 7