Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lära Policyiteration | Dynamisk Programmering
Introduktion till Förstärkningsinlärning

bookPolicyiteration

Idén bakom policyiteration är enkel:

  1. Välj en initial π\pi och vv;
  2. Använd policyevaluering för att uppdatera vv tills det är konsistent med π\pi;
  3. Använd policyförbättring för att uppdatera π\pi tills den är girig med avseende på vv;
  4. Upprepa steg 2-3 tills konvergens.

I denna metod sker inga partiella uppdateringar:

  • Under policyevaluering uppdateras värden för varje tillstånd tills de är konsistenta med aktuell policy;
  • Under policyförbättring görs policyn girig med avseende på värdefunktionen.

Pseudokod

question mark

Baserat på pseudokoden, vilket villkor gör att yttre loopen i policyiteration avslutas?

Select the correct answer

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 3. Kapitel 7

Fråga AI

expand

Fråga AI

ChatGPT

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Suggested prompts:

Can you explain what policy evaluation and policy improvement mean in this context?

What does it mean for a policy to be "greedy" with respect to a value function?

Can you walk me through the pseudocode step by step?

Awesome!

Completion rate improved to 2.7

bookPolicyiteration

Svep för att visa menyn

Idén bakom policyiteration är enkel:

  1. Välj en initial π\pi och vv;
  2. Använd policyevaluering för att uppdatera vv tills det är konsistent med π\pi;
  3. Använd policyförbättring för att uppdatera π\pi tills den är girig med avseende på vv;
  4. Upprepa steg 2-3 tills konvergens.

I denna metod sker inga partiella uppdateringar:

  • Under policyevaluering uppdateras värden för varje tillstånd tills de är konsistenta med aktuell policy;
  • Under policyförbättring görs policyn girig med avseende på värdefunktionen.

Pseudokod

question mark

Baserat på pseudokoden, vilket villkor gör att yttre loopen i policyiteration avslutas?

Select the correct answer

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 3. Kapitel 7
some-alt