Kursinnehåll
Introduktion till Förstärkningsinlärning
Introduktion till Förstärkningsinlärning
Policyförbättring
Policysförbättring är en process för att förbättra policyn baserat på aktuella värdefunktionsuppskattningar.
Precis som vid policysutvärdering kan policysförbättring användas med både tillståndsvärdefunktion och aktionsvärdefunktion. Men för DP-metoder kommer tillståndsvärdefunktionen att användas.
Nu när du kan uppskatta tillståndsvärdefunktionen för en godtycklig policy, är ett naturligt nästa steg att undersöka om det finns några policys som är bättre än den nuvarande. Ett sätt att göra detta är att överväga att ta en annan handling i ett tillstånd , och sedan följa den nuvarande policyn. Om detta låter bekant, är det för att det liknar hur vi definierar aktionsvärdefunktionen:
Om detta nya värde är större än det ursprungliga tillståndsvärdet , indikerar det att att välja åtgärd i tillstånd och därefter fortsätta med policyn leder till bättre utfall än att strikt följa policyn . Eftersom tillstånd är oberoende är det optimalt att alltid välja åtgärd när tillstånd påträffas. Därför kan vi konstruera en förbättrad policy , identisk med förutom att den väljer åtgärd i tillstånd , vilket skulle vara överlägset den ursprungliga policyn .
Sats om policyförbättring
Resonemanget som beskrivs ovan kan generaliseras som satsen om policyförbättring:
Beviset för denna sats är relativt enkelt och kan uppnås genom en upprepad substitution:
Förbättringsstrategi
Att uppdatera åtgärder för vissa tillstånd kan leda till förbättringar, men det är mer effektivt att uppdatera åtgärder för alla tillstånd samtidigt. Specifikt, för varje tillstånd , välj den åtgärd som maximerar åtgärdsvärdet :
där (förkortning för argumentet för maximum) är en operator som returnerar värdet på den variabel som maximerar en given funktion.
Den resulterande giriga policyn, betecknad med , uppfyller villkoren för policyförbättringssatsen genom konstruktion, vilket garanterar att är minst lika bra som den ursprungliga policyn , och vanligtvis bättre.
Om är lika bra som, men inte bättre än , så är både och optimala policies, eftersom deras värdefunktioner är lika och uppfyller Bellmans optimalitetsekvation:
Tack för dina kommentarer!