Lære Optimalitetsbetingelser | Dynamisk Programmering

I forrige kapittel lærte du om Bellman-likninger for tilstandsverdi- og tilstands-handlingsverdifunksjoner. Disse likningene beskriver hvordan tilstandsverdier kan defineres rekursivt gjennom verdiene til andre tilstander, hvor verdiene avhenger av en gitt policy. Imidlertid er ikke alle policies like effektive. Faktisk gir verdifunksjoner en delvis ordning for policies, som kan beskrives slik:

\pi \ge \pi' \iff v_\pi(s) \ge v_{\pi'}(s) \qquad \forall s \in S

Så policy $\pi$ er bedre enn eller lik policy $\pi'$ hvis for alle mulige tilstander er den forventede avkastningen til policy $\pi$ ikke mindre enn den forventede avkastningen til policy $\pi'$ .

Les mer

En delvis ordning følger de vanlige ordningsreglene, men tvinger ikke alle par til å sammenlignes. I vårt tilfelle kan vi bare rangere to policies hvis de gir samme resultat, eller hvis den ene klart overgår den andre. I alle andre tilfeller forblir policies usammenlignbare.

Optimal politikk

Definisjon

For enhver MDP finnes det minst én politikk som er like god som eller bedre enn alle andre politiker. Denne politikken kalles en optimal politikk $\pi_*$ . Selv om det kan finnes flere optimale politiker, betegnes alle som $\pi_*$ .

Hvorfor eksisterer alltid en optimal politikk?

Du lurer kanskje på hvorfor en optimal policy alltid eksisterer for enhver MDP. Det er et godt spørsmål, og intuisjonen bak dette er overraskende enkel. Husk at tilstander i en MDP fanger opp miljøets tilstand fullstendig. Dette innebærer at hver tilstand er uavhengig av alle andre: handlingen valgt i én tilstand påvirker ikke belønningene eller utfallene som kan oppnås i en annen. Derfor, ved å velge den optimale handlingen i hver tilstand separat, kommer du naturlig frem til den beste totale rekkefølgen av handlinger gjennom hele prosessen. Og dette settet av optimale handlinger i hver tilstand utgjør en optimal policy.

Videre finnes det alltid minst én policy som er både optimal og deterministisk. Faktisk, hvis to handlinger $a$ og $a'$ gir samme forventede avkastning i en tilstand $s$ , vil det å velge bare én av dem ikke påvirke policyens optimalitet. Ved å anvende dette prinsippet på hver enkelt tilstand, blir policyen deterministisk samtidig som den beholder sin optimalitet.

Optimale verdifunksjoner

Optimale policyer har samme verdifunksjoner — dette blir tydelig når vi vurderer hvordan policyer sammenlignes. Dette innebærer at optimale policyer deler både tilstandsverdifunksjon og aksjonsverdifunksjon.

I tillegg har optimale verdifunksjoner sine egne Bellman-ligninger som kan skrives uten referanse til en spesifikk policy. Disse ligningene kalles Bellman optimalitetsligninger.

Optimal tilstandsverdifunksjon

Definisjon

Optimal tilstandsverdifunksjon $V_*$ (eller $v_*$ ) representerer den maksimale forventede avkastningen som kan oppnås fra en gitt tilstand ved å følge en optimal policy.

Det kan defineres matematisk slik:

\def\E{\operatorname{\mathbb{E}}} v_*(s) = \max_\pi v_\pi(s) = \E_{\pi_*}[G_t | S_t = s]

Bellmans optimalitetslikning for denne verdifunksjonen kan utledes slik:

\begin{aligned} v_*(s) &= \sum_a \pi_*(a | s) \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_*(s')\Bigr)\\ &= \max_a \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_*(s')\Bigr) \end{aligned}

Intuisjon

Som du allerede vet, finnes det alltid minst én politikk som er både optimal og deterministisk. En slik politikk vil, for hver tilstand, konsekvent velge én bestemt handling som maksimerer forventet avkastning. Derfor vil sannsynligheten for å velge denne optimale handlingen alltid være 1, og sannsynligheten for å velge en hvilken som helst annen handling vil være 0. Gitt dette, trenger ikke den opprinnelige Bellman-likningen lenger summeringsoperatoren. Siden vi vet at vi alltid vil velge den beste mulige handlingen, kan vi ganske enkelt erstatte summen med å ta et maksimum over alle tilgjengelige handlinger.

Optimal aksjonsverdifunksjon

Definisjon

Optimal aksjonsverdifunksjon $Q_*$ (eller $q_*$ ) representerer den maksimale forventede avkastningen som kan oppnås ved å ta en bestemt handling i en bestemt tilstand og deretter følge den optimale policyen.

Det kan matematisk defineres som:

\def\E{\operatorname{\mathbb{E}}} q_*(s, a) = \max_\pi q_\pi(s, a) = \E_{\pi_*}[G_t | S_t = s, A_t = a]

Bellmans optimalitetslikning for denne verdifunksjonen kan utledes slik:

\begin{aligned} q_*(s, a) &= \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma \sum_{a'} \pi_*(a' | s')q_*(s', a')\Bigr)\\ &= \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma \max_{a'} q_*(s', a')\Bigr) \end{aligned}

Intuisjon

På samme måte som for tilstandsverdifunksjonen, kan summen erstattes med å ta maksimum over alle tilgjengelige handlinger.

Alt var klart?

Takk for tilbakemeldingene dine!

Seksjon 3. Kapittel 3

Spør AI

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Suggested prompts:

Can you explain the difference between deterministic and stochastic policies?

How do Bellman optimality equations help in finding the optimal policy?

Can you provide an example of how to compute the optimal value function for a simple MDP?

Sveip for å vise menyen

\pi \ge \pi' \iff v_\pi(s) \ge v_{\pi'}(s) \qquad \forall s \in S

Les mer

Optimal politikk

Definisjon

Hvorfor eksisterer alltid en optimal politikk?

Optimale verdifunksjoner

I tillegg har optimale verdifunksjoner sine egne Bellman-ligninger som kan skrives uten referanse til en spesifikk policy. Disse ligningene kalles Bellman optimalitetsligninger.

Optimal tilstandsverdifunksjon

Definisjon

Optimal tilstandsverdifunksjon $V_*$ (eller $v_*$ ) representerer den maksimale forventede avkastningen som kan oppnås fra en gitt tilstand ved å følge en optimal policy.

Det kan defineres matematisk slik:

\def\E{\operatorname{\mathbb{E}}} v_*(s) = \max_\pi v_\pi(s) = \E_{\pi_*}[G_t | S_t = s]

Bellmans optimalitetslikning for denne verdifunksjonen kan utledes slik:

\begin{aligned} v_*(s) &= \sum_a \pi_*(a | s) \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_*(s')\Bigr)\\ &= \max_a \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_*(s')\Bigr) \end{aligned}

Intuisjon

Optimal aksjonsverdifunksjon

Definisjon

Det kan matematisk defineres som:

\def\E{\operatorname{\mathbb{E}}} q_*(s, a) = \max_\pi q_\pi(s, a) = \E_{\pi_*}[G_t | S_t = s, A_t = a]

Bellmans optimalitetslikning for denne verdifunksjonen kan utledes slik:

\begin{aligned} q_*(s, a) &= \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma \sum_{a'} \pi_*(a' | s')q_*(s', a')\Bigr)\\ &= \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma \max_{a'} q_*(s', a')\Bigr) \end{aligned}

Intuisjon

På samme måte som for tilstandsverdifunksjonen, kan summen erstattes med å ta maksimum over alle tilgjengelige handlinger.

Alt var klart?

Takk for tilbakemeldingene dine!

Seksjon 3. Kapittel 3