Lära Generaliserad Policyiteration | Dynamisk Programmering

I tidigare kapitel lärde du dig om policyutvärdering och policyförbättring. Dessa processer kompletterar varandra och kombineras naturligt i ett ramverk som kallas generaliserad policyiteration.

Definition

Generaliserad policyiteration (GPI) är ett ramverk där policyutvärdering och policyförbättring samverkar iterativt med det gemensamma målet att bestämma en optimal policy.

De flesta metoder inom förstärkningsinlärning kan beskrivas inom ramen för GPI. De viktigaste skillnaderna mellan dessa metoder beror på specifika implementationer av policyutvärdering och policyförbättring samt karaktären på deras interaktioner.

Interaktion mellan två processer

Policyutvärdering och policyförbättring kan betraktas som både kooperativa och konkurrerande processer, beroende på perspektivet:

Kooperativa: båda processerna arbetar mot ett gemensamt mål—att hitta den optimala policyn och värdefunktionen. Policyutvärdering uppskattar värdefunktionen för en given policy, medan policyförbättring förfinar policyn baserat på dessa uppskattningar;
Konkurrerande: varje process har motstridiga mål. Policyutvärdering syftar till att noggrant uppskatta värdefunktionen för den aktuella policyn, vilket ofta gör att policyn inte längre är girig. Omvänt justerar policyförbättring policyn till att vara girig med avseende på de aktuella värdefunktionsuppskattningarna, vilket vanligtvis gör dessa uppskattningar felaktiga. Denna ständiga dragkamp fortsätter tills både policyn och värdefunktionen konvergerar till sina optimala former.

Sammanfattning

Generaliserad policyiteration är ett användbart ramverk för att förstå hur olika metoder inom förstärkningsinlärning angriper lösningen av MDP:er. I de kommande kapitlen kommer du att utforska hur dessa idéer kan tillämpas för att skapa två grundläggande DP-metoder: policyiteration och värdeiteration.

Var allt tydligt?

Tack för dina kommentarer!

Avsnitt 3. Kapitel 6

Fråga AI

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Suggested prompts:

Can you explain what generalized policy iteration (GPI) is in simple terms?

What are the main differences between policy iteration and value iteration?

How do policy evaluation and policy improvement interact in practice?

Svep för att visa menyn