Summary  
This chapter explains the policy iteration algorithm, which alternates between fully evaluating a given policy’s value function and greedily improving the policy based on that value until convergence.

General domain of usage  
Reinforcement learning

Ideen bag **policy iteration** er enkel:
1. Vælg en initial $$\pi$$ og $$v$$;
2. Brug policy evaluation til at opdatere $$v$$, indtil det er konsistent med $$\pi$$;
3. Brug policy improvement til at opdatere $$\pi$$, indtil det er grådig i forhold til $$v$$;
4. Gentag trin 2-3 indtil konvergens.

I denne metode er der **ingen delvise opdateringer**:
- Under **policy evaluation** opdateres værdierne for hver tilstand, indtil de er konsistente med den nuværende politik;
- Under **policy improvement** gøres politikken grådig i forhold til værdifunktionen.

Baseret på pseudokoden, hvilken betingelse får den ydre løkke i policy iteration til at stoppe?

Reinforcement Learning (RL) er en kraftfuld gren af maskinlæring, der fokuserer på at træne intelligente agenter gennem interaktion med deres miljø. I dette kursus lærer du, hvordan agenter gradvist opdager effektive adfærdsmønstre gennem trial and error. Med udgangspunkt i kernebegreber som Markov beslutningsprocesser og multi-armed bandits arbejder du dig igennem dynamisk programmering, Monte Carlo-metoder og temporal difference learning.

Opdag, hvordan man træner agenter til at træffe optimale beslutninger gennem trial and error. Udforsk det grundlæggende i reinforcement learning teori. Få praktisk erfaring med opsætning og kørsel af et Gymnasium-miljø.

Behersk udfordringen med udforskning kontra udnyttelse gennem multi-armed bandit-problemet. Implementering af handlingsværdiestimering, ε-grådig, øvre konfidensgrænse og gradient-bandit-metoder. Evaluering af algoritmers ydeevne på simulerede opgaver med belønningsmaksimering.

Behersk dynamisk programmering til modelbaseret RL. Opdag, hvordan Bellman-ligninger kan bruges til at evaluere og forbedre politikker. Implementer algoritmer til politik- og værdiforløb. Udforsk generaliseret politikforløb som det teoretiske grundlag for modelfrie metoder.

Behersk Monte Carlo-metoder til modellfri RL. Estimer værdifunktioner og udled optimale politikker fra fuldstændige episoder. Implementer on-policy og off-policy Monte Carlo-kontrolalgoritmer. Udforsk strategier for udforskning til optimering af modellfri læring.

Behersk temporal difference learning til model-fri RL. Estimer værdifunktioner ud fra delvise episoder ved hjælp af TD(0)-opdateringer. Implementer on-policy SARSA og off-policy Q-Learning algoritmer. Undersøg hvordan Monte Carlo-metoder og TD learning kombineres i n-step TD og TD(λ).

Politikiteration

Pseudokode

Politikiteration

Pseudokode