Kursinnehåll
Introduktion till Förstärkningsinlärning
Introduktion till Förstärkningsinlärning
Optimalitetsvillkor
I föregående kapitel lärde du dig om Bellman-ekvationer för tillståndsvärde- och tillstånd-handlingsvärdefunktioner. Dessa ekvationer beskriver hur tillståndsvärden kan definieras rekursivt genom värdena för andra tillstånd, där värdena är beroende av en given policy. Dock är inte alla policies lika effektiva. Faktum är att värdefunktioner tillhandahåller en partiell ordning för policies, vilket kan beskrivas enligt följande:
Så policy är bättre än eller lika med policy om för alla möjliga tillstånd den förväntade avkastningen av policy inte är mindre än den förväntade avkastningen av policy .
En partiell ordning följer de vanliga ordningsreglerna men kräver inte att varje par jämförs. I vårt fall kan vi endast rangordna två policies om de ger samma resultat, eller om en tydligt överträffar den andra. I alla andra fall förblir policies ojämförbara.
Optimal policy
För varje MDP finns det minst en policy som är lika bra som eller bättre än alla andra policies. Denna policy kallas en optimal policy . Även om det kan finnas många optimala policies, betecknas alla som .
Varför existerar alltid en optimal policy?
Du kanske undrar varför en optimal policy alltid existerar för varje MDP. Det är en bra fråga, och intuitionen bakom detta är förvånansvärt enkel. Kom ihåg att tillstånden i en MDP fångar fullt ut miljöns tillstånd. Detta innebär att varje tillstånd är oberoende av alla andra: åtgärden som väljs i ett tillstånd påverkar inte de belöningar eller utfall som kan uppnås i ett annat. Genom att välja den optimala åtgärden i varje tillstånd separat, når du därför naturligt fram till den övergripande bästa sekvensen av åtgärder genom hela processen. Och denna uppsättning av optimala åtgärder i varje tillstånd utgör en optimal policy.
Dessutom finns det alltid minst en policy som är både optimal och deterministisk. Faktum är att om det för något tillstånd finns två åtgärder och som ger samma förväntade avkastning, kommer valet av endast en av dem inte att påverka policyns optimalitet. Om denna princip tillämpas på varje enskilt tillstånd blir policyn deterministisk samtidigt som dess optimalitet bibehålls.
Optimala värdefunktioner
Optimala policys delar samma värdefunktioner — detta blir tydligt när vi betraktar hur policys jämförs. Det innebär att optimala policys delar både tillståndsvärdefunktion och aktionsvärdefunktion.
Dessutom har optimala värdefunktioner sina egna Bellman-ekvationer som kan skrivas utan hänvisning till någon specifik policy. Dessa ekvationer kallas Bellmans optimalitetsekvationer.
Optimal tillståndsvärdefunktion
Optimal tillståndsvärdefunktion (eller ) representerar den maximala förväntade avkastningen som kan uppnås från ett visst tillstånd genom att följa en optimal policy.
Det kan matematiskt definieras så här:
Bellmans optimalitetsekvation för denna värdefunktion kan härledas enligt följande:
Intuition
Som du redan vet finns det alltid minst en policy som är både optimal och deterministisk. En sådan policy skulle, för varje tillstånd, konsekvent välja en specifik åtgärd som maximerar den förväntade avkastningen. Därför skulle sannolikheten att välja denna optimala åtgärd alltid vara 1, och sannolikheten att välja någon annan åtgärd skulle vara 0. Givet detta behöver den ursprungliga Bellman-ekvationen inte längre summationsoperatorn. Eftersom vi vet att vi alltid kommer att välja den bästa möjliga åtgärden kan vi istället ersätta summan med att ta ett maximum över alla tillgängliga åtgärder.
Optimalt aktionsvärdesfunktion
Optimalt aktionsvärdesfunktion (eller ) representerar den maximala förväntade avkastningen som kan uppnås genom att ta en viss handling i ett visst tillstånd och därefter följa den optimala policyn.
Det kan matematiskt definieras som:
Bellmans optimalitetsekvation för denna värdefunktion kan härledas så här:
Intuition
På liknande sätt som för tillståndsvärdefunktionen kan summan ersättas med att ta ett maximum över alla tillgängliga åtgärder.
Tack för dina kommentarer!