Summary  
This chapter explains the policy iteration algorithm, which alternates between fully evaluating a given policy’s value function and greedily improving the policy based on that value until convergence.

General domain of usage  
Reinforcement learning

Het idee achter **policy iteration** is eenvoudig:
1. Neem een initiële $$\pi$$ en $$v$$;
2. Gebruik beleidsevaluatie om $$v$$ bij te werken totdat deze consistent is met $$\pi$$;
3. Gebruik beleidsverbetering om $$\pi$$ bij te werken totdat deze hebzuchtig is ten opzichte van $$v$$;
4. Herhaal stappen 2-3 tot convergentie.

Bij deze methode zijn er **geen gedeeltelijke updates**:
- Tijdens **beleidsevaluatie** worden waarden voor elke toestand bijgewerkt totdat ze consistent zijn met het huidige beleid;
- Tijdens **beleidsverbetering** wordt het beleid hebzuchtig gemaakt ten opzichte van de waardefunctie.

Op basis van de pseudocode, welke voorwaarde zorgt ervoor dat de buitenste lus van policy iteration stopt?

Reinforcement Learning (RL) is een krachtige tak van machine learning die zich richt op het trainen van intelligente agenten door interactie met hun omgeving. In deze cursus leer je hoe agenten geleidelijk effectieve gedragingen ontdekken via trial-and-error. Beginnend met kernconcepten zoals Markov-beslissingsprocessen en multi-armed bandits, werk je verder met dynamisch programmeren, Monte Carlo-methoden en temporal difference learning.

Ontdek hoe agenten getraind kunnen worden om optimale beslissingen te nemen via trial-and-error. Verken de essentiële theorie van reinforcement learning. Doe praktische ervaring op met het opzetten en uitvoeren van een Gymnasium-omgeving.

Beheers de exploratie-exploitatie-afweging via het multi-armed bandit probleem. Implementeer actie-waarde schatting, ε-greedy, upper confidence bound en gradient-bandit methoden. Evalueer de prestaties van algoritmen op gesimuleerde beloningsmaximalisatietaken.

Beheers dynamisch programmeren voor modelgebaseerde RL. Ontdek hoe Bellman-vergelijkingen kunnen worden gebruikt om beleid te evalueren en te verbeteren. Implementeer algoritmen voor beleid- en waarde-iteratie. Verken gegeneraliseerde beleid-iteratie als het theoretische fundament voor modelvrije methoden.

Beheers Monte Carlo-methoden voor modelvrije RL. Waarde-functies schatten en optimale beleidslijnen afleiden uit volledige episodes. Implementatie van on-policy en off-policy Monte Carlo-controle-algoritmen. Ontdek verkenningsstrategieën om modelvrij leren te optimaliseren.

Beheers tijdverschil leren voor modelvrije RL. Waarde-functies schatten uit gedeeltelijke episodes met behulp van TD(0)-updates. Implementeer on-policy SARSA- en off-policy Q-Learning-algoritmen. Ontdek hoe Monte Carlo-methoden en TD-leren worden gecombineerd in n-staps TD en TD(λ).

Beleiditeratie

Pseudocode

Beleiditeratie

Pseudocode