Leer Waarde-Iteratie | Dynamisch Programmeren

Hoewel policy-iteratie een effectieve methode is voor het oplossen van MDP's, heeft het een belangrijk nadeel: elke iteratie omvat een afzonderlijke stap van beleidsevaluatie. Wanneer beleidsevaluatie iteratief wordt uitgevoerd, zijn er meerdere doorlopen van de volledige toestandsruimte nodig, wat leidt tot aanzienlijke computationele overhead en langere rekentijden.

Een goed alternatief is waarde-iteratie, een methode die beleidsevaluatie en beleidsverbetering samenvoegt tot één enkele stap. Deze methode werkt de waardefunctie direct bij totdat deze convergeert naar de optimale waardefunctie. Zodra convergentie is bereikt, kan het optimale beleid direct uit deze optimale waardefunctie worden afgeleid.

Hoe werkt het?

Waarde-iteratie werkt door slechts één backup uit te voeren tijdens de beleidsevaluatie, voordat beleidsverbetering plaatsvindt. Dit resulteert in de volgende updateformule:

v_{k+1}(s) \gets \max_a \sum_{s',r}p(s',r|s,a)\Bigl(r+\gamma v_k(s')\Bigr) \qquad \forall s \in S

Door de Bellman-optimaliteitsvergelijking om te zetten in een update-regel, worden beleidsevaluatie en beleidsverbetering samengevoegd tot één enkele stap.

Pseudocode

Was alles duidelijk?

Bedankt voor je feedback!

Sectie 3. Hoofdstuk 8

Vraag AI

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Suggested prompts:

Can you explain the steps in the value iteration pseudocode?

What is the difference between value iteration and policy iteration?

How do you know when value iteration has converged?

Veeg om het menu te tonen