Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lära Generaliserad Policyiteration | Dynamisk Programmering
Introduktion till Förstärkningsinlärning
course content

Kursinnehåll

Introduktion till Förstärkningsinlärning

Introduktion till Förstärkningsinlärning

1. RL Kärnteori
2. Multi-Armed Bandit-Problemet
3. Dynamisk Programmering
4. Monte Carlo-metoder
5. Temporär Differensinlärning

book
Generaliserad Policyiteration

I tidigare kapitel lärde du dig om policyutvärdering och policyförbättring. Dessa processer kompletterar varandra och kombineras naturligt i ett ramverk som kallas generaliserad policyiteration.

Note
Definition

Generaliserad policyiteration (GPI) är ett ramverk där policyutvärdering och policyförbättring samverkar iterativt med det gemensamma målet att bestämma en optimal policy.

De flesta metoder inom förstärkningsinlärning kan beskrivas inom ramen för GPI. De viktigaste skillnaderna mellan dessa metoder beror på specifika implementationer av policyutvärdering och policyförbättring samt karaktären på deras interaktioner.

Interaktion mellan två processer

Policyevaluering och policyförbättring kan betraktas som både samarbetande och konkurrerande processer, beroende på perspektivet:

  • Samarbetande: båda processerna arbetar mot ett gemensamt mål—att hitta den optimala policyn och värdefunktionen. Policyevaluering uppskattar värdefunktionen för en given policy, medan policyförbättring förfinar policyn baserat på dessa uppskattningar;
  • Konkurrerande: varje process har motstridiga mål. Policyevaluering syftar till att noggrant uppskatta värdefunktionen för den aktuella policyn, vilket ofta gör att policyn inte längre är girig. Omvänt justerar policyförbättring policyn till att vara girig med avseende på de aktuella värdefunktionsuppskattningarna, vilket vanligtvis gör dessa uppskattningar felaktiga. Denna ständiga dragkamp fortsätter tills både policyn och värdefunktionen konvergerar till sina optimala former.

Sammanfattning

Generaliserad policyiteration är en användbar ram för att förstå hur olika förstärkningsinlärningsmetoder angriper lösningen av MDP:er. I de kommande kapitlen kommer du att utforska hur dessa idéer kan tillämpas för att skapa två grundläggande DP-metoder: policyiteration och värdeiteration.

question mark

Välj de två processer som samarbetar i ramen för generaliserad policyiteration

Select the correct answer

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 3. Kapitel 6

Fråga AI

expand

Fråga AI

ChatGPT

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

course content

Kursinnehåll

Introduktion till Förstärkningsinlärning

Introduktion till Förstärkningsinlärning

1. RL Kärnteori
2. Multi-Armed Bandit-Problemet
3. Dynamisk Programmering
4. Monte Carlo-metoder
5. Temporär Differensinlärning

book
Generaliserad Policyiteration

I tidigare kapitel lärde du dig om policyutvärdering och policyförbättring. Dessa processer kompletterar varandra och kombineras naturligt i ett ramverk som kallas generaliserad policyiteration.

Note
Definition

Generaliserad policyiteration (GPI) är ett ramverk där policyutvärdering och policyförbättring samverkar iterativt med det gemensamma målet att bestämma en optimal policy.

De flesta metoder inom förstärkningsinlärning kan beskrivas inom ramen för GPI. De viktigaste skillnaderna mellan dessa metoder beror på specifika implementationer av policyutvärdering och policyförbättring samt karaktären på deras interaktioner.

Interaktion mellan två processer

Policyevaluering och policyförbättring kan betraktas som både samarbetande och konkurrerande processer, beroende på perspektivet:

  • Samarbetande: båda processerna arbetar mot ett gemensamt mål—att hitta den optimala policyn och värdefunktionen. Policyevaluering uppskattar värdefunktionen för en given policy, medan policyförbättring förfinar policyn baserat på dessa uppskattningar;
  • Konkurrerande: varje process har motstridiga mål. Policyevaluering syftar till att noggrant uppskatta värdefunktionen för den aktuella policyn, vilket ofta gör att policyn inte längre är girig. Omvänt justerar policyförbättring policyn till att vara girig med avseende på de aktuella värdefunktionsuppskattningarna, vilket vanligtvis gör dessa uppskattningar felaktiga. Denna ständiga dragkamp fortsätter tills både policyn och värdefunktionen konvergerar till sina optimala former.

Sammanfattning

Generaliserad policyiteration är en användbar ram för att förstå hur olika förstärkningsinlärningsmetoder angriper lösningen av MDP:er. I de kommande kapitlen kommer du att utforska hur dessa idéer kan tillämpas för att skapa två grundläggande DP-metoder: policyiteration och värdeiteration.

question mark

Välj de två processer som samarbetar i ramen för generaliserad policyiteration

Select the correct answer

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 3. Kapitel 6
some-alt