Summary  
This chapter explains the policy iteration algorithm, which alternates between fully evaluating a given policy’s value function and greedily improving the policy based on that value until convergence.

General domain of usage  
Reinforcement learning

Ideen bak **policy iteration** er enkel:
1. Start med en initial $$\pi$$ og $$v$$;
2. Bruk policy-evaluering for å oppdatere $$v$$ til det er konsistent med $$\pi$$;
3. Bruk policy-forbedring for å oppdatere $$\pi$$ til det er grådig med hensyn til $$v$$;
4. Gjenta trinn 2-3 til konvergens.

I denne metoden er det **ingen delvise oppdateringer**:
- Under **policy-evaluering** oppdateres verdiene for hver tilstand til de er konsistente med gjeldende policy;
- Under **policy-forbedring** gjøres policyen grådig med hensyn til verdifunksjonen.

Basert på pseudokoden, hvilken betingelse gjør at den ytre løkken i policy iteration stopper?

Reinforcement Learning (RL) er en kraftig gren av maskinlæring som fokuserer på å trene intelligente agenter gjennom interaksjon med sitt miljø. I dette kurset lærer du hvordan agenter gradvis oppdager effektive atferder gjennom prøving og feiling. Du starter med grunnleggende konsepter som Markov beslutningsprosesser og multi-armede banditter, og fortsetter med dynamisk programmering, Monte Carlo-metoder og temporal difference-læring.

Lær hvordan man trener agenter til å ta optimale beslutninger gjennom prøving og feiling. Utforsk det grunnleggende innenfor teori om forsterkende læring. Få praktisk erfaring med å sette opp og kjøre et Gymnasium-miljø.

Forstå utforskning-utnyttelse-avveiningen gjennom multi-armet bandittproblem. Implementering av handlingsverdiestimering, ε-grådig, øvre konfidensgrense og gradient-bandittmetoder. Evaluering av algoritmers ytelse på simulerte belønningsmaksimeringsoppgaver.

Behersk dynamisk programmering for modellbasert RL. Oppdag hvordan Bellman-likninger kan brukes til å evaluere og forbedre policyer. Implementering av policy- og verdiiterasjonsalgoritmer. Utforsk generalisert policyiterasjon som det teoretiske grunnlaget for modellfrie metoder.

Behersk Monte Carlo-metoder for modellfri RL. Estimer verdifunksjoner og utled optimale policyer fra fullstendige episoder. Implementer on-policy og off-policy Monte Carlo-kontrollalgoritmer. Utforsk strategier for utforskning for å optimalisere modellfri læring.

Behersk temporal difference-læring for modellfri RL. Estimeringsmetoder for verdifunksjoner fra delvise episoder ved bruk av TD(0)-oppdateringer. Implementering av on-policy SARSA og off-policy Q-Learning-algoritmer. Utforsk hvordan Monte Carlo-metoder og TD-læring kombineres i n-trinns TD og TD(λ).

Policyiterasjon

Pseudokode

Policyiterasjon

Pseudokode