Kursinnhold
Introduksjon til Forsterkende Læring
Introduksjon til Forsterkende Læring
Optimalitetsbetingelser
I forrige kapittel lærte du om Bellman-likninger for tilstandsverdi- og tilstands-handlingsverdifunksjoner. Disse likningene beskriver hvordan tilstandsverdier kan defineres rekursivt gjennom verdiene til andre tilstander, hvor verdiene avhenger av en gitt policy. Imidlertid er ikke alle policies like effektive. Faktisk gir verdifunksjoner en delvis ordning for policies, som kan beskrives slik:
Så policy er bedre enn eller lik policy hvis for alle mulige tilstander er den forventede avkastningen til policy ikke mindre enn den forventede avkastningen til policy .
En delvis ordning følger de vanlige ordningsreglene, men tvinger ikke alle par til å sammenlignes. I vårt tilfelle kan vi bare rangere to policies hvis de gir samme resultat, eller hvis en av dem tydelig overgår den andre. I alle andre tilfeller forblir policies ukomparerbare.
Optimal politikk
For enhver MDP finnes det minst én politikk som er like god som eller bedre enn alle andre politiker. Denne politikken kalles en optimal politikk . Selv om det kan finnes mange optimale politiker, betegnes alle som .
Hvorfor eksisterer alltid en optimal politikk?
Du lurer kanskje på hvorfor en optimal policy alltid eksisterer for enhver MDP. Det er et godt spørsmål, og intuisjonen bak dette er overraskende enkel. Husk at tilstander i en MDP fanger opp miljøets tilstand fullstendig. Dette innebærer at hver tilstand er uavhengig av alle andre: handlingen som velges i én tilstand påvirker ikke belønningene eller utfallene som kan oppnås i en annen. Derfor, ved å velge den optimale handlingen i hver tilstand separat, kommer du naturlig frem til den beste totale handlingssekvensen gjennom hele prosessen. Og dette settet av optimale handlinger i hver tilstand utgjør en optimal policy.
Videre finnes det alltid minst én policy som er både optimal og deterministisk. Faktisk, hvis det for en tilstand finnes to handlinger og som gir samme forventede avkastning, vil det å velge bare én av dem ikke påvirke policyens optimalitet. Ved å anvende dette prinsippet på hver enkelt tilstand, blir policyen deterministisk samtidig som den beholder sin optimalitet.
Optimale verdifunksjoner
Optimale policyer deler de samme verdifunksjonene — noe som blir tydelig når vi vurderer hvordan policyer sammenlignes. Dette betyr at optimale policyer deler både tilstandsverdifunksjon og aksjonsverdifunksjon.
I tillegg har optimale verdifunksjoner sine egne Bellman-ligninger som kan skrives uten referanse til en spesifikk policy. Disse ligningene kalles Bellman optimalitetsligninger.
Optimal tilstandsverdifunksjon
Optimal tilstandsverdifunksjon (eller ) representerer den maksimale forventede avkastningen som kan oppnås fra en gitt tilstand ved å følge en optimal policy.
Det kan defineres matematisk slik:
Bellmans optimalitetslikning for denne verdifunksjonen kan utledes slik:
Intuisjon
Som du allerede vet, finnes det alltid minst én politikk som er både optimal og deterministisk. En slik politikk vil, for hver tilstand, konsekvent velge én bestemt handling som maksimerer forventet avkastning. Derfor vil sannsynligheten for å velge denne optimale handlingen alltid være 1, og sannsynligheten for å velge andre handlinger vil være 0. Gitt dette, trenger ikke den opprinnelige Bellman-likningen lenger summeringsoperatoren. I stedet, siden vi vet at vi alltid vil velge den beste mulige handlingen, kan vi ganske enkelt erstatte summen med å ta et maksimum over alle tilgjengelige handlinger.
Optimalt handlingsverdifunksjon
Optimalt handlingsverdifunksjon (eller ) representerer den maksimale forventede avkastningen som kan oppnås ved å ta en bestemt handling i en bestemt tilstand og deretter følge den optimale policyen.
Det kan matematisk defineres slik:
Bellmans optimalitetslikning for denne verdifunksjonen kan utledes slik:
Intuisjon
På samme måte som for tilstandsverdifunksjonen, kan summen erstattes med å ta maksimum over alle tilgjengelige handlinger.
Takk for tilbakemeldingene dine!