Summary  
This chapter explains the policy iteration algorithm, which alternates between fully evaluating a given policy’s value function and greedily improving the policy based on that value until convergence.

General domain of usage  
Reinforcement learning

Idén bakom **policyiteration** är enkel:
1. Välj en initial $$\pi$$ och $$v$$;
2. Använd policyevaluering för att uppdatera $$v$$ tills det är konsistent med $$\pi$$;
3. Använd policyförbättring för att uppdatera $$\pi$$ tills det är girigt med avseende på $$v$$;
4. Upprepa steg 2-3 tills konvergens uppnås.

I denna metod sker **inga partiella uppdateringar**:
- Under **policyevaluering** uppdateras värdena för varje tillstånd tills de är konsistenta med den aktuella policyn;
- Under **policyförbättring** görs policyn girig med avseende på värdefunktionen.

Baserat på pseudokoden, vilket villkor gör att den yttre loopen i policyiteration avslutas?

Reinforcement Learning (RL) är en kraftfull gren av maskininlärning som fokuserar på att träna intelligenta agenter genom interaktion med sin omgivning. I denna kurs lär du dig hur agenter gradvis upptäcker effektiva beteenden genom försök och misstag. Med början i grundläggande begrepp som Markovbeslutsprocesser och multiarmade banditer, går du vidare till dynamisk programmering, Monte Carlo-metoder och temporär differensinlärning.

Upptäck hur agenter tränas att fatta optimala beslut genom trial and error. Utforska grunderna i förstärkningsinlärningens teori. Få praktisk erfarenhet av att konfigurera och köra en Gymnasium-miljö.

Bemästra utforsknings- och exploateringsavvägningen genom multi-armed bandit-problemet. Implementera åtgärdsvärdesuppskattning, ε-girig, övre konfidensgräns och gradient-banditmetoder. Utvärdera algoritmers prestanda på simulerade belöningsmaximeringsuppgifter.

Behärska dynamisk programmering för modellbaserad RL. Upptäck hur Bellmans ekvationer kan användas för att utvärdera och förbättra policies.
Implementera algoritmer för policy- och värdeiteration.
Utforska generaliserad policyiteration som den teoretiska grunden för modellfria metoder.

Behärska Monte Carlo-metoder för modellfri RL. Uppskatta värdefunktioner och härled optimala policies från fullständiga episoder. Implementera on-policy och off-policy Monte Carlo-kontrollalgoritmer. Utforska strategier för utforskning för att optimera modellfritt lärande.

Behärska temporär differensinlärning för modellfri RL. Skatta värdefunktioner från partiella episoder med hjälp av TD(0)-uppdateringar. Implementera on-policy SARSA och off-policy Q-Learning-algoritmer. Utforska hur Monte Carlo-metoder och TD-inlärning kombineras i n-stegs TD och TD(λ).

Policyiteration

Pseudokod

Policyiteration

Pseudokod