Optimalitetsbetingelser
I forrige kapittel lærte du om Bellman-likninger for tilstandsverdi- og tilstands-handlingsverdifunksjoner. Disse likningene beskriver hvordan tilstandsverdier kan defineres rekursivt gjennom verdiene til andre tilstander, hvor verdiene avhenger av en gitt policy. Imidlertid er ikke alle policies like effektive. Faktisk gir verdifunksjoner en delvis ordning for policies, som kan beskrives slik:
π≥π′⟺vπ(s)≥vπ′(s)∀s∈SEn policy π er bedre enn eller lik policy π′ hvis for alle mulige tilstander er den forventede avkastningen til policy π ikke mindre enn den forventede avkastningen til policy π′.
En delvis ordning følger de vanlige ordningsreglene, men tvinger ikke alle par til å sammenlignes. I vårt tilfelle kan vi bare rangere to policies hvis de gir samme resultat, eller hvis en av dem tydelig overgår den andre. I alle andre tilfeller forblir policies usammenlignbare.
Optimal politikk
For enhver MDP finnes det minst én politikk som er like god som eller bedre enn alle andre politiker. Denne politikken kalles en optimal politikk π∗. Selv om det kan finnes flere optimale politiker, betegnes alle som π∗.
Hvorfor eksisterer alltid en optimal politikk?
Du lurer kanskje på hvorfor en optimal politikk alltid eksisterer for enhver MDP. Det er et godt spørsmål, og intuisjonen bak dette er overraskende enkel. Husk at tilstander i en MDP fanger opp miljøets tilstand fullstendig. Dette innebærer at hver tilstand er uavhengig av alle andre: handlingen valgt i én tilstand påvirker ikke belønningene eller utfallene som kan oppnås i en annen. Derfor, ved å velge den optimale handlingen i hver tilstand separat, oppnår du naturlig den beste totale rekkefølgen av handlinger gjennom hele prosessen. Og dette settet av optimale handlinger i hver tilstand utgjør en optimal politikk.
Videre finnes det alltid minst én politikk som er både optimal og deterministisk. Faktisk, hvis det for en tilstand s finnes to handlinger a og a′ som gir samme forventede utbytte, vil det å velge bare én av dem ikke påvirke politikkens optimalitet. Ved å anvende dette prinsippet på hver enkelt tilstand blir politikken deterministisk samtidig som den beholder sin optimalitet.
Optimale verdifunksjoner
Optimale policyer har samme verdifunksjoner — dette blir tydelig når vi vurderer hvordan policyer sammenlignes. Dette innebærer at optimale policyer deler både tilstandsverdifunksjon og aksjonsverdifunksjon.
I tillegg har optimale verdifunksjoner sine egne Bellman-ligninger som kan skrives uten referanse til en spesifikk policy. Disse ligningene kalles Bellmans optimalitetsligninger.
Optimal tilstandsverdifunksjon
Optimal tilstandsverdifunksjon V∗ (eller v∗) representerer den maksimale forventede avkastningen som kan oppnås fra en gitt tilstand ved å følge en optimal policy.
Det kan defineres matematisk slik:
v∗(s)=πmaxvπ(s)=Eπ∗[Gt∣St=s]Bellmans optimalitetslikning for denne verdifunksjonen kan utledes slik:
v∗(s)=a∑π∗(a∣s)s′,r∑p(s′,r∣s,a)(r+γv∗(s′))=amaxs′,r∑p(s′,r∣s,a)(r+γv∗(s′))Intuisjon
Som du allerede vet, finnes det alltid minst én politikk som er både optimal og deterministisk. En slik politikk vil, for hver tilstand, konsekvent velge én bestemt handling som maksimerer forventet avkastning. Derfor vil sannsynligheten for å velge denne optimale handlingen alltid være 1, og sannsynligheten for å velge andre handlinger vil være 0. Gitt dette, trenger ikke den opprinnelige Bellman-likningen lenger summeringsoperatoren. Siden vi vet at vi alltid vil velge den beste mulige handlingen, kan vi ganske enkelt erstatte summen med å ta et maksimum over alle tilgjengelige handlinger.
Optimal aksjonsverdi-funksjon
Optimal aksjonsverdi-funksjon Q∗ (eller q∗) representerer den maksimale forventede avkastningen som kan oppnås ved å ta en bestemt handling i en bestemt tilstand og deretter følge den optimale policyen.
Det kan matematisk defineres slik:
q∗(s,a)=πmaxqπ(s,a)=Eπ∗[Gt∣St=s,At=a]Bellmans optimalitetslikning for denne verdifunksjonen kan utledes slik:
q∗(s,a)=s′,r∑p(s′,r∣s,a)(r+γa′∑π∗(a′∣s′)q∗(s′,a′))=s′,r∑p(s′,r∣s,a)(r+γa′maxq∗(s′,a′))Intuisjon
På samme måte som for tilstandsverdifunksjonen, kan summen erstattes med å ta maksimum over alle tilgjengelige handlinger.
Takk for tilbakemeldingene dine!
Spør AI
Spør AI
Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår
Awesome!
Completion rate improved to 2.7
Optimalitetsbetingelser
Sveip for å vise menyen
I forrige kapittel lærte du om Bellman-likninger for tilstandsverdi- og tilstands-handlingsverdifunksjoner. Disse likningene beskriver hvordan tilstandsverdier kan defineres rekursivt gjennom verdiene til andre tilstander, hvor verdiene avhenger av en gitt policy. Imidlertid er ikke alle policies like effektive. Faktisk gir verdifunksjoner en delvis ordning for policies, som kan beskrives slik:
π≥π′⟺vπ(s)≥vπ′(s)∀s∈SEn policy π er bedre enn eller lik policy π′ hvis for alle mulige tilstander er den forventede avkastningen til policy π ikke mindre enn den forventede avkastningen til policy π′.
En delvis ordning følger de vanlige ordningsreglene, men tvinger ikke alle par til å sammenlignes. I vårt tilfelle kan vi bare rangere to policies hvis de gir samme resultat, eller hvis en av dem tydelig overgår den andre. I alle andre tilfeller forblir policies usammenlignbare.
Optimal politikk
For enhver MDP finnes det minst én politikk som er like god som eller bedre enn alle andre politiker. Denne politikken kalles en optimal politikk π∗. Selv om det kan finnes flere optimale politiker, betegnes alle som π∗.
Hvorfor eksisterer alltid en optimal politikk?
Du lurer kanskje på hvorfor en optimal politikk alltid eksisterer for enhver MDP. Det er et godt spørsmål, og intuisjonen bak dette er overraskende enkel. Husk at tilstander i en MDP fanger opp miljøets tilstand fullstendig. Dette innebærer at hver tilstand er uavhengig av alle andre: handlingen valgt i én tilstand påvirker ikke belønningene eller utfallene som kan oppnås i en annen. Derfor, ved å velge den optimale handlingen i hver tilstand separat, oppnår du naturlig den beste totale rekkefølgen av handlinger gjennom hele prosessen. Og dette settet av optimale handlinger i hver tilstand utgjør en optimal politikk.
Videre finnes det alltid minst én politikk som er både optimal og deterministisk. Faktisk, hvis det for en tilstand s finnes to handlinger a og a′ som gir samme forventede utbytte, vil det å velge bare én av dem ikke påvirke politikkens optimalitet. Ved å anvende dette prinsippet på hver enkelt tilstand blir politikken deterministisk samtidig som den beholder sin optimalitet.
Optimale verdifunksjoner
Optimale policyer har samme verdifunksjoner — dette blir tydelig når vi vurderer hvordan policyer sammenlignes. Dette innebærer at optimale policyer deler både tilstandsverdifunksjon og aksjonsverdifunksjon.
I tillegg har optimale verdifunksjoner sine egne Bellman-ligninger som kan skrives uten referanse til en spesifikk policy. Disse ligningene kalles Bellmans optimalitetsligninger.
Optimal tilstandsverdifunksjon
Optimal tilstandsverdifunksjon V∗ (eller v∗) representerer den maksimale forventede avkastningen som kan oppnås fra en gitt tilstand ved å følge en optimal policy.
Det kan defineres matematisk slik:
v∗(s)=πmaxvπ(s)=Eπ∗[Gt∣St=s]Bellmans optimalitetslikning for denne verdifunksjonen kan utledes slik:
v∗(s)=a∑π∗(a∣s)s′,r∑p(s′,r∣s,a)(r+γv∗(s′))=amaxs′,r∑p(s′,r∣s,a)(r+γv∗(s′))Intuisjon
Som du allerede vet, finnes det alltid minst én politikk som er både optimal og deterministisk. En slik politikk vil, for hver tilstand, konsekvent velge én bestemt handling som maksimerer forventet avkastning. Derfor vil sannsynligheten for å velge denne optimale handlingen alltid være 1, og sannsynligheten for å velge andre handlinger vil være 0. Gitt dette, trenger ikke den opprinnelige Bellman-likningen lenger summeringsoperatoren. Siden vi vet at vi alltid vil velge den beste mulige handlingen, kan vi ganske enkelt erstatte summen med å ta et maksimum over alle tilgjengelige handlinger.
Optimal aksjonsverdi-funksjon
Optimal aksjonsverdi-funksjon Q∗ (eller q∗) representerer den maksimale forventede avkastningen som kan oppnås ved å ta en bestemt handling i en bestemt tilstand og deretter følge den optimale policyen.
Det kan matematisk defineres slik:
q∗(s,a)=πmaxqπ(s,a)=Eπ∗[Gt∣St=s,At=a]Bellmans optimalitetslikning for denne verdifunksjonen kan utledes slik:
q∗(s,a)=s′,r∑p(s′,r∣s,a)(r+γa′∑π∗(a′∣s′)q∗(s′,a′))=s′,r∑p(s′,r∣s,a)(r+γa′maxq∗(s′,a′))Intuisjon
På samme måte som for tilstandsverdifunksjonen, kan summen erstattes med å ta maksimum over alle tilgjengelige handlinger.
Takk for tilbakemeldingene dine!