Summary  
Value iteration is an algorithm for solving Markov Decision Processes by merging policy evaluation and improvement into a single update: it repeatedly applies the Bellman optimality equation to the value function until it converges, then derives the optimal policy.  

General domain of usage  
Reinforcement learning

Selvom **policy iteration** er en effektiv metode til at løse **MDP'er**, har den en væsentlig ulempe: Hver iteration indebærer et separat **policy evaluation**-trin. Når **policy evaluation** udføres **iterativt**, kræver det flere gennemløb af hele **state space**, hvilket medfører betydelig beregningsmæssig belastning og længere beregningstider.

Et godt alternativ er **value iteration**, en metode der kombinerer policy evaluation og policy improvement i ét **enkelt trin**. Denne metode opdaterer værdifunktionen direkte, indtil den konvergerer til den **optimale værdifunktion**. Når konvergens er opnået, kan den **optimale policy** udledes direkte fra denne optimale værdifunktion.

**Value iteration** fungerer ved kun at udføre én backup under policy evaluation, før policy improvement foretages. Dette resulterer i følgende opdateringsformel:

$$
v_{k+1}(s) \gets \max_a \sum_{s',r}p(s',r|s,a)\Bigl(r+\gamma v_k(s')\Bigr) \qquad \forall s \in S
$$

Ved at omsætte Bellmans optimalitetsligning til en opdateringsregel, kombineres policy evaluation og policy improvement i ét trin.

Baseret på pseudokoden, hvornår stopper værdiiteration?

Reinforcement Learning (RL) er en kraftfuld gren af maskinlæring, der fokuserer på at træne intelligente agenter gennem interaktion med deres miljø. I dette kursus lærer du, hvordan agenter gradvist opdager effektive adfærdsmønstre gennem trial and error. Med udgangspunkt i kernebegreber som Markov beslutningsprocesser og multi-armed bandits arbejder du dig igennem dynamisk programmering, Monte Carlo-metoder og temporal difference learning.

Opdag, hvordan man træner agenter til at træffe optimale beslutninger gennem trial and error. Udforsk det grundlæggende i reinforcement learning teori. Få praktisk erfaring med opsætning og kørsel af et Gymnasium-miljø.

Behersk udfordringen med udforskning kontra udnyttelse gennem multi-armed bandit-problemet. Implementering af handlingsværdiestimering, ε-grådig, øvre konfidensgrænse og gradient-bandit-metoder. Evaluering af algoritmers ydeevne på simulerede opgaver med belønningsmaksimering.

Behersk dynamisk programmering til modelbaseret RL. Opdag, hvordan Bellman-ligninger kan bruges til at evaluere og forbedre politikker. Implementer algoritmer til politik- og værdiforløb. Udforsk generaliseret politikforløb som det teoretiske grundlag for modelfrie metoder.

Behersk Monte Carlo-metoder til modellfri RL. Estimer værdifunktioner og udled optimale politikker fra fuldstændige episoder. Implementer on-policy og off-policy Monte Carlo-kontrolalgoritmer. Udforsk strategier for udforskning til optimering af modellfri læring.

Behersk temporal difference learning til model-fri RL. Estimer værdifunktioner ud fra delvise episoder ved hjælp af TD(0)-opdateringer. Implementer on-policy SARSA og off-policy Q-Learning algoritmer. Undersøg hvordan Monte Carlo-metoder og TD learning kombineres i n-step TD og TD(λ).

Værdiiteration

Hvordan fungerer det?

Pseudokode

Værdiiteration

Hvordan fungerer det?

Pseudokode