Kursinnehåll
Introduktion till Förstärkningsinlärning
Introduktion till Förstärkningsinlärning
Generaliserad Policyiteration
I tidigare kapitel lärde du dig om policyutvärdering och policyförbättring. Dessa processer kompletterar varandra och kombineras naturligt i ett ramverk som kallas generaliserad policyiteration.
Generaliserad policyiteration (GPI) är ett ramverk där policyutvärdering och policyförbättring samverkar iterativt med det gemensamma målet att bestämma en optimal policy.
De flesta metoder inom förstärkningsinlärning kan beskrivas inom ramen för GPI. De viktigaste skillnaderna mellan dessa metoder beror på specifika implementationer av policyutvärdering och policyförbättring samt karaktären på deras interaktioner.
Interaktion mellan två processer
Policyevaluering och policyförbättring kan betraktas som både samarbetande och konkurrerande processer, beroende på perspektivet:
- Samarbetande: båda processerna arbetar mot ett gemensamt mål—att hitta den optimala policyn och värdefunktionen. Policyevaluering uppskattar värdefunktionen för en given policy, medan policyförbättring förfinar policyn baserat på dessa uppskattningar;
- Konkurrerande: varje process har motstridiga mål. Policyevaluering syftar till att noggrant uppskatta värdefunktionen för den aktuella policyn, vilket ofta gör att policyn inte längre är girig. Omvänt justerar policyförbättring policyn till att vara girig med avseende på de aktuella värdefunktionsuppskattningarna, vilket vanligtvis gör dessa uppskattningar felaktiga. Denna ständiga dragkamp fortsätter tills både policyn och värdefunktionen konvergerar till sina optimala former.
Sammanfattning
Generaliserad policyiteration är en användbar ram för att förstå hur olika förstärkningsinlärningsmetoder angriper lösningen av MDP:er. I de kommande kapitlen kommer du att utforska hur dessa idéer kan tillämpas för att skapa två grundläggande DP-metoder: policyiteration och värdeiteration.
Tack för dina kommentarer!