Lære Policyforbedring | Dynamisk Programmering

Definisjon

Polisforbedring er en prosess der man forbedrer en politikk basert på nåværende estimater av verdifunksjonen.

Merk

Som ved polisevaluering, kan polisforbedring benytte både tilstandsverdifunksjon og aksjonsverdifunksjon. For DP-metoder vil tilstandsverdifunksjon benyttes.

Nå som du kan estimere tilstandsverdifunksjonen for en hvilken som helst politikk, er et naturlig neste steg å undersøke om det finnes noen politiker som er bedre enn den nåværende. En måte å gjøre dette på, er å vurdere å ta en annen handling $a$ i en tilstand $s$ , og deretter følge den nåværende politikken. Hvis dette virker kjent, er det fordi dette ligner på hvordan vi definerer aksjonsverdifunksjonen:

q_\pi(s, a) = \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_\pi(s')\Bigr)

Hvis denne nye verdien er større enn den opprinnelige tilstandsverdien $v_\pi(s)$ , indikerer det at å velge handling $a$ i tilstand $s$ og deretter fortsette med politikk $\pi$ gir bedre resultater enn å følge politikk $\pi$ strengt. Siden tilstander er uavhengige, er det optimalt å alltid velge handling $a$ hver gang tilstand $s$ oppstår. Derfor kan vi konstruere en forbedret politikk $\pi'$ , identisk med $\pi$ bortsett fra at den velger handling $a$ i tilstand $s$ , noe som vil være bedre enn den opprinnelige politikken $\pi$ .

Teorem for politikkforbedring

Resonnementet beskrevet ovenfor kan generaliseres som teorem for politikkforbedring:

\begin{aligned} &q_\pi(s, \pi'(s)) \ge v_\pi(s) \qquad &\forall s \in S\\ \implies &v_{\pi'}(s) \ge v_\pi(s) \qquad &\forall s \in S \end{aligned}

Beviset for denne teoremet er relativt enkelt, og kan oppnås ved en gjentatt substitusjon:

\def\E{\operatorname{\mathbb{E}}} \begin{aligned} v_\pi(s) &\le q_\pi(s, \pi'(s))\\ &= \E_{\pi'}[R_{t+1} + \gamma v_\pi(S_{t+1}) | S_t = s]\\ &\le \E_{\pi'}[R_{t+1} + \gamma q_\pi(S_{t+1}, \pi'(S_{t+1})) | S_t = s]\\ &= \E_{\pi'}[R_{t+1} + \gamma \E_{\pi'}[R_{t+2} + \gamma v_\pi(S_{t+2})] | S_t = s]\\ &= \E_{\pi'}[R_{t+1} + \gamma R_{t+2} + \gamma^2 v_\pi(S_{t+2}) | S_t = s]\\ &...\\ &\le \E_{\pi'}[R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... | S_t = s]\\ &= v_{\pi'}(s) \end{aligned}

Forbedringsstrategi

Selv om oppdatering av handlinger for enkelte tilstander kan føre til forbedringer, er det mer effektivt å oppdatere handlinger for alle tilstander samtidig. Spesielt, for hver tilstand $s$ , velges den handlingen $a$ som maksimerer handlingsverdien $q_\pi(s, a)$ :

\begin{aligned} \pi'(s) &\gets \argmax_a q_\pi(s, a)\\ &\gets \argmax_a \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_\pi(s')\Bigr) \end{aligned}

hvor $\argmax$ (forkortelse for argumentet til maksimumet) er en operator som returnerer verdien av variabelen som maksimerer en gitt funksjon.

Den resulterende grådige policyen, betegnet som $\pi'$ , oppfyller betingelsene i policy improvement-teoremet ved konstruksjon, noe som garanterer at $\pi'$ er minst like god som den opprinnelige policyen $\pi$ , og vanligvis bedre.

Hvis $\pi'$ er like god som, men ikke bedre enn $\pi$ , er både $\pi'$ og $\pi$ optimale policyer, ettersom deres verdifunksjoner er like, og de oppfyller Bellmans optimalitetslikning:

v_\pi(s) = \max_a \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_\pi(s')\Bigr)

Alt var klart?

Takk for tilbakemeldingene dine!

Seksjon 3. Kapittel 5

Spør AI

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Sveip for å vise menyen