Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lära Värdeiteration | Dynamisk Programmering
Introduktion till Förstärkningsinlärning
course content

Kursinnehåll

Introduktion till Förstärkningsinlärning

Introduktion till Förstärkningsinlärning

1. RL Kärnteori
2. Multi-Armed Bandit-Problemet
3. Dynamisk Programmering
4. Monte Carlo-metoder
5. Temporär Differensinlärning

book
Värdeiteration

Även om policyiteration är en effektiv metod för att lösa MDP:er, har den en betydande nackdel: varje iteration innebär ett separat steg för policyevaluering. När policyevaluering utförs iterativt krävs flera genomgångar av hela tillståndsrymden, vilket leder till betydande beräkningskostnader och längre beräkningstider.

Ett bra alternativ är värdeiteration, en metod som kombinerar policyevaluering och policyförbättring i ett enda steg. Denna metod uppdaterar värdefunktionen direkt tills den konvergerar mot den optimala värdefunktionen. När konvergens har uppnåtts kan den optimala policyn härledas direkt från denna optimala värdefunktion.

Hur fungerar det?

Värdeiteration fungerar genom att endast utföra en backup under policyevalueringen, innan policyförbättring sker. Detta resulterar i följande uppdateringsformel:

vk+1(s)maxas,rp(s,rs,a)(r+γvk(s))sSv_{k+1}(s) \gets \max_a \sum_{s',r}p(s',r|s,a)\Bigl(r+\gamma v_k(s')\Bigr) \qquad \forall s \in S

Genom att omvandla Bellmans optimalitetsekvation till en uppdateringsregel, slås policyevaluering och policyförbättring ihop till ett enda steg.

Pseudokod

question mark

Enligt pseudokoden, när avslutas värdeiteration?

Select the correct answer

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 3. Kapitel 8

Fråga AI

expand

Fråga AI

ChatGPT

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

course content

Kursinnehåll

Introduktion till Förstärkningsinlärning

Introduktion till Förstärkningsinlärning

1. RL Kärnteori
2. Multi-Armed Bandit-Problemet
3. Dynamisk Programmering
4. Monte Carlo-metoder
5. Temporär Differensinlärning

book
Värdeiteration

Även om policyiteration är en effektiv metod för att lösa MDP:er, har den en betydande nackdel: varje iteration innebär ett separat steg för policyevaluering. När policyevaluering utförs iterativt krävs flera genomgångar av hela tillståndsrymden, vilket leder till betydande beräkningskostnader och längre beräkningstider.

Ett bra alternativ är värdeiteration, en metod som kombinerar policyevaluering och policyförbättring i ett enda steg. Denna metod uppdaterar värdefunktionen direkt tills den konvergerar mot den optimala värdefunktionen. När konvergens har uppnåtts kan den optimala policyn härledas direkt från denna optimala värdefunktion.

Hur fungerar det?

Värdeiteration fungerar genom att endast utföra en backup under policyevalueringen, innan policyförbättring sker. Detta resulterar i följande uppdateringsformel:

vk+1(s)maxas,rp(s,rs,a)(r+γvk(s))sSv_{k+1}(s) \gets \max_a \sum_{s',r}p(s',r|s,a)\Bigl(r+\gamma v_k(s')\Bigr) \qquad \forall s \in S

Genom att omvandla Bellmans optimalitetsekvation till en uppdateringsregel, slås policyevaluering och policyförbättring ihop till ett enda steg.

Pseudokod

question mark

Enligt pseudokoden, när avslutas värdeiteration?

Select the correct answer

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 3. Kapitel 8
some-alt