Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Leer Beleiditeratie | Dynamisch Programmeren
Introductie tot Reinforcement Learning

bookBeleiditeratie

Het idee achter policy iteration is eenvoudig:

  1. Neem een initiële π\pi en vv;
  2. Gebruik beleidsevaluatie om vv bij te werken totdat deze consistent is met π\pi;
  3. Gebruik beleidsverbetering om π\pi bij te werken totdat deze greedy is ten opzichte van vv;
  4. Herhaal stappen 2-3 tot convergentie.

Bij deze methode zijn er geen gedeeltelijke updates:

  • Tijdens beleidsevaluatie worden waarden voor elke toestand bijgewerkt totdat ze consistent zijn met het huidige beleid;
  • Tijdens beleidsverbetering wordt het beleid greedy gemaakt ten opzichte van de waardefunctie.

Pseudocode

question mark

Op basis van de pseudocode, welke voorwaarde zorgt ervoor dat de buitenste lus van policy iteration stopt?

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 3. Hoofdstuk 7

Vraag AI

expand

Vraag AI

ChatGPT

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Suggested prompts:

Can you explain what policy evaluation and policy improvement mean in this context?

What does it mean for a policy to be "greedy" with respect to a value function?

Can you walk me through the pseudocode step by step?

Awesome!

Completion rate improved to 2.7

bookBeleiditeratie

Veeg om het menu te tonen

Het idee achter policy iteration is eenvoudig:

  1. Neem een initiële π\pi en vv;
  2. Gebruik beleidsevaluatie om vv bij te werken totdat deze consistent is met π\pi;
  3. Gebruik beleidsverbetering om π\pi bij te werken totdat deze greedy is ten opzichte van vv;
  4. Herhaal stappen 2-3 tot convergentie.

Bij deze methode zijn er geen gedeeltelijke updates:

  • Tijdens beleidsevaluatie worden waarden voor elke toestand bijgewerkt totdat ze consistent zijn met het huidige beleid;
  • Tijdens beleidsverbetering wordt het beleid greedy gemaakt ten opzichte van de waardefunctie.

Pseudocode

question mark

Op basis van de pseudocode, welke voorwaarde zorgt ervoor dat de buitenste lus van policy iteration stopt?

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 3. Hoofdstuk 7
some-alt