Cursusinhoud
Introductie tot Reinforcement Learning
Introductie tot Reinforcement Learning
Waarde-Iteratie
Hoewel policy-iteratie een effectieve methode is voor het oplossen van MDP's, heeft het een belangrijk nadeel: elke iteratie omvat een afzonderlijke beleidsevaluatie-stap. Wanneer beleidsevaluatie iteratief wordt uitgevoerd, zijn er meerdere doorlopen van de volledige toestandsruimte nodig, wat leidt tot aanzienlijke computationele overhead en langere rekentijden.
Een goed alternatief is waarde-iteratie, een methode die beleidsevaluatie en beleidsverbetering samenvoegt tot één enkele stap. Deze methode werkt de waardefunctie direct bij totdat deze convergeert naar de optimale waardefunctie. Zodra convergentie is bereikt, kan het optimale beleid direct uit deze optimale waardefunctie worden afgeleid.
Hoe werkt het?
Waarde-iteratie werkt door slechts één backup uit te voeren tijdens de beleidsevaluatie, voordat beleidsverbetering plaatsvindt. Dit resulteert in de volgende updateformule:
Door de Bellman-optimaliteitsvergelijking om te zetten in een update-regel, worden beleidsevaluatie en beleidsverbetering samengevoegd tot één enkele stap.
Pseudocode
Bedankt voor je feedback!