Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lära Policyiteration | Dynamisk Programmering
Introduktion till Förstärkningsinlärning
course content

Kursinnehåll

Introduktion till Förstärkningsinlärning

Introduktion till Förstärkningsinlärning

1. RL Kärnteori
2. Multi-Armed Bandit-Problemet
3. Dynamisk Programmering
4. Monte Carlo-metoder
5. Temporär Differensinlärning

book
Policyiteration

Idén bakom policyiteration är enkel:

  1. Välj en initial π\pi och vv;
  2. Använd policyevaluering för att uppdatera vv tills det är konsistent med π\pi;
  3. Använd policyförbättring för att uppdatera π\pi tills den är girig med avseende på vv;
  4. Upprepa steg 2-3 tills konvergens.

I denna metod sker inga partiella uppdateringar:

  • Under policyevaluering uppdateras värden för varje tillstånd tills de är konsistenta med aktuell policy;
  • Under policyförbättring görs policyn girig med avseende på värdefunktionen.

Pseudokod

question mark

Baserat på pseudokoden, vilket villkor gör att den yttre loopen i policyiteration avslutas?

Select the correct answer

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 3. Kapitel 7

Fråga AI

expand

Fråga AI

ChatGPT

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

course content

Kursinnehåll

Introduktion till Förstärkningsinlärning

Introduktion till Förstärkningsinlärning

1. RL Kärnteori
2. Multi-Armed Bandit-Problemet
3. Dynamisk Programmering
4. Monte Carlo-metoder
5. Temporär Differensinlärning

book
Policyiteration

Idén bakom policyiteration är enkel:

  1. Välj en initial π\pi och vv;
  2. Använd policyevaluering för att uppdatera vv tills det är konsistent med π\pi;
  3. Använd policyförbättring för att uppdatera π\pi tills den är girig med avseende på vv;
  4. Upprepa steg 2-3 tills konvergens.

I denna metod sker inga partiella uppdateringar:

  • Under policyevaluering uppdateras värden för varje tillstånd tills de är konsistenta med aktuell policy;
  • Under policyförbättring görs policyn girig med avseende på värdefunktionen.

Pseudokod

question mark

Baserat på pseudokoden, vilket villkor gör att den yttre loopen i policyiteration avslutas?

Select the correct answer

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 3. Kapitel 7
some-alt