Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Leer Waarde-Iteratie | Dynamisch Programmeren
Introductie tot Reinforcement Learning
course content

Cursusinhoud

Introductie tot Reinforcement Learning

Introductie tot Reinforcement Learning

1. Kernprincipes van RL
2. Multi-Armed Bandit Probleem
3. Dynamisch Programmeren
4. Monte Carlo-Methoden
5. Temporale Verschil Leren

book
Waarde-Iteratie

Hoewel policy-iteratie een effectieve methode is voor het oplossen van MDP's, heeft het een belangrijk nadeel: elke iteratie omvat een afzonderlijke beleidsevaluatie-stap. Wanneer beleidsevaluatie iteratief wordt uitgevoerd, zijn er meerdere doorlopen van de volledige toestandsruimte nodig, wat leidt tot aanzienlijke computationele overhead en langere rekentijden.

Een goed alternatief is waarde-iteratie, een methode die beleidsevaluatie en beleidsverbetering samenvoegt tot één enkele stap. Deze methode werkt de waardefunctie direct bij totdat deze convergeert naar de optimale waardefunctie. Zodra convergentie is bereikt, kan het optimale beleid direct uit deze optimale waardefunctie worden afgeleid.

Hoe werkt het?

Waarde-iteratie werkt door slechts één backup uit te voeren tijdens de beleidsevaluatie, voordat beleidsverbetering plaatsvindt. Dit resulteert in de volgende updateformule:

vk+1(s)maxas,rp(s,rs,a)(r+γvk(s))sSv_{k+1}(s) \gets \max_a \sum_{s',r}p(s',r|s,a)\Bigl(r+\gamma v_k(s')\Bigr) \qquad \forall s \in S

Door de Bellman-optimaliteitsvergelijking om te zetten in een update-regel, worden beleidsevaluatie en beleidsverbetering samengevoegd tot één enkele stap.

Pseudocode

question mark

Op basis van de pseudocode, wanneer stopt de value-iteratie?

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 3. Hoofdstuk 8

Vraag AI

expand

Vraag AI

ChatGPT

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

course content

Cursusinhoud

Introductie tot Reinforcement Learning

Introductie tot Reinforcement Learning

1. Kernprincipes van RL
2. Multi-Armed Bandit Probleem
3. Dynamisch Programmeren
4. Monte Carlo-Methoden
5. Temporale Verschil Leren

book
Waarde-Iteratie

Hoewel policy-iteratie een effectieve methode is voor het oplossen van MDP's, heeft het een belangrijk nadeel: elke iteratie omvat een afzonderlijke beleidsevaluatie-stap. Wanneer beleidsevaluatie iteratief wordt uitgevoerd, zijn er meerdere doorlopen van de volledige toestandsruimte nodig, wat leidt tot aanzienlijke computationele overhead en langere rekentijden.

Een goed alternatief is waarde-iteratie, een methode die beleidsevaluatie en beleidsverbetering samenvoegt tot één enkele stap. Deze methode werkt de waardefunctie direct bij totdat deze convergeert naar de optimale waardefunctie. Zodra convergentie is bereikt, kan het optimale beleid direct uit deze optimale waardefunctie worden afgeleid.

Hoe werkt het?

Waarde-iteratie werkt door slechts één backup uit te voeren tijdens de beleidsevaluatie, voordat beleidsverbetering plaatsvindt. Dit resulteert in de volgende updateformule:

vk+1(s)maxas,rp(s,rs,a)(r+γvk(s))sSv_{k+1}(s) \gets \max_a \sum_{s',r}p(s',r|s,a)\Bigl(r+\gamma v_k(s')\Bigr) \qquad \forall s \in S

Door de Bellman-optimaliteitsvergelijking om te zetten in een update-regel, worden beleidsevaluatie en beleidsverbetering samengevoegd tot één enkele stap.

Pseudocode

question mark

Op basis van de pseudocode, wanneer stopt de value-iteratie?

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 3. Hoofdstuk 8
some-alt