Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Værdiiteration | Dynamisk Programmering
Introduktion til Reinforcement Learning
course content

Kursusindhold

Introduktion til Reinforcement Learning

Introduktion til Reinforcement Learning

1. RL Kerneprincipper
2. Multi-Armet Bandit-Problem
3. Dynamisk Programmering
4. Monte Carlo-metoder
5. Temporal Difference-Læring

book
Værdiiteration

Selvom policy iteration er en effektiv metode til at løse MDP'er, har den en væsentlig ulempe: Hver iteration indebærer et separat policy evaluation-trin. Når policy evaluation udføres iterativt, kræver det flere gennemløb af hele state space, hvilket medfører betydelig beregningsmæssig belastning og længere beregningstider.

Et godt alternativ er value iteration, en metode der kombinerer policy evaluation og policy improvement i ét enkelt trin. Denne metode opdaterer værdifunktionen direkte, indtil den konvergerer til den optimale værdifunktion. Når konvergens er opnået, kan den optimale policy udledes direkte fra denne optimale værdifunktion.

Hvordan fungerer det?

Value iteration fungerer ved kun at udføre én backup under policy evaluation, før policy improvement foretages. Dette resulterer i følgende opdateringsformel:

vk+1(s)maxas,rp(s,rs,a)(r+γvk(s))sSv_{k+1}(s) \gets \max_a \sum_{s',r}p(s',r|s,a)\Bigl(r+\gamma v_k(s')\Bigr) \qquad \forall s \in S

Ved at omsætte Bellmans optimalitetsligning til en opdateringsregel, kombineres policy evaluation og policy improvement i ét trin.

Pseudokode

question mark

Baseret på pseudokoden, hvornår stopper value iteration?

Select the correct answer

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 3. Kapitel 8

Spørg AI

expand

Spørg AI

ChatGPT

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

course content

Kursusindhold

Introduktion til Reinforcement Learning

Introduktion til Reinforcement Learning

1. RL Kerneprincipper
2. Multi-Armet Bandit-Problem
3. Dynamisk Programmering
4. Monte Carlo-metoder
5. Temporal Difference-Læring

book
Værdiiteration

Selvom policy iteration er en effektiv metode til at løse MDP'er, har den en væsentlig ulempe: Hver iteration indebærer et separat policy evaluation-trin. Når policy evaluation udføres iterativt, kræver det flere gennemløb af hele state space, hvilket medfører betydelig beregningsmæssig belastning og længere beregningstider.

Et godt alternativ er value iteration, en metode der kombinerer policy evaluation og policy improvement i ét enkelt trin. Denne metode opdaterer værdifunktionen direkte, indtil den konvergerer til den optimale værdifunktion. Når konvergens er opnået, kan den optimale policy udledes direkte fra denne optimale værdifunktion.

Hvordan fungerer det?

Value iteration fungerer ved kun at udføre én backup under policy evaluation, før policy improvement foretages. Dette resulterer i følgende opdateringsformel:

vk+1(s)maxas,rp(s,rs,a)(r+γvk(s))sSv_{k+1}(s) \gets \max_a \sum_{s',r}p(s',r|s,a)\Bigl(r+\gamma v_k(s')\Bigr) \qquad \forall s \in S

Ved at omsætte Bellmans optimalitetsligning til en opdateringsregel, kombineres policy evaluation og policy improvement i ét trin.

Pseudokode

question mark

Baseret på pseudokoden, hvornår stopper value iteration?

Select the correct answer

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 3. Kapitel 8
some-alt