Summary  
Value iteration is an algorithm for solving Markov Decision Processes by merging policy evaluation and improvement into a single update: it repeatedly applies the Bellman optimality equation to the value function until it converges, then derives the optimal policy.  

General domain of usage  
Reinforcement learning

Även om **policyiteration** är en effektiv metod för att lösa **MDP:er**, har den en betydande nackdel: varje iteration innebär ett separat steg för **policyevaluering**. När **policyevaluering** utförs **iterativt** krävs flera genomgångar av hela **tillståndsrymden**, vilket leder till avsevärd beräkningsmässig belastning och längre beräkningstider.

Ett bra alternativ är **värdeiteration**, en metod som kombinerar policyevaluering och policyförbättring i **ett enda steg**. Denna metod uppdaterar värdefunktionen direkt tills den konvergerar mot **den optimala värdefunktionen**. När konvergens har uppnåtts kan **den optimala policyn** härledas direkt från denna optimala värdefunktion.

**Värdeiteration** fungerar genom att endast utföra en backup under policyevalueringen, innan policyförbättring sker. Detta resulterar i följande uppdateringsformel:

$$
v_{k+1}(s) \gets \max_a \sum_{s',r}p(s',r|s,a)\Bigl(r+\gamma v_k(s')\Bigr) \qquad \forall s \in S
$$

Genom att omvandla Bellmans optimalitetsekvation till en uppdateringsregel slås policyevaluering och policyförbättring ihop till ett enda steg.

Baserat på pseudokoden, när avslutas värdeiteration?

Reinforcement Learning (RL) är en kraftfull gren av maskininlärning som fokuserar på att träna intelligenta agenter genom interaktion med sin omgivning. I denna kurs lär du dig hur agenter gradvis upptäcker effektiva beteenden genom försök och misstag. Med början i grundläggande begrepp som Markovbeslutsprocesser och multiarmade banditer, går du vidare till dynamisk programmering, Monte Carlo-metoder och temporär differensinlärning.

Upptäck hur agenter tränas att fatta optimala beslut genom trial and error. Utforska grunderna i förstärkningsinlärningens teori. Få praktisk erfarenhet av att konfigurera och köra en Gymnasium-miljö.

Bemästra utforsknings- och exploateringsavvägningen genom multi-armed bandit-problemet. Implementera åtgärdsvärdesuppskattning, ε-girig, övre konfidensgräns och gradient-banditmetoder. Utvärdera algoritmers prestanda på simulerade belöningsmaximeringsuppgifter.

Behärska dynamisk programmering för modellbaserad RL. Upptäck hur Bellmans ekvationer kan användas för att utvärdera och förbättra policies.
Implementera algoritmer för policy- och värdeiteration.
Utforska generaliserad policyiteration som den teoretiska grunden för modellfria metoder.

Behärska Monte Carlo-metoder för modellfri RL. Uppskatta värdefunktioner och härled optimala policies från fullständiga episoder. Implementera on-policy och off-policy Monte Carlo-kontrollalgoritmer. Utforska strategier för utforskning för att optimera modellfritt lärande.

Behärska temporär differensinlärning för modellfri RL. Skatta värdefunktioner från partiella episoder med hjälp av TD(0)-uppdateringar. Implementera on-policy SARSA och off-policy Q-Learning-algoritmer. Utforska hur Monte Carlo-metoder och TD-inlärning kombineras i n-stegs TD och TD(λ).

Värdeiteration

Hur fungerar det?

Pseudokod

Värdeiteration

Hur fungerar det?

Pseudokod