Policyforbedring
Policy improvement er en prosess for å forbedre policyen basert på nåværende estimater av verdifunksjonen.
Akkurat som med policy-evaluering, kan policyforbedring benytte både tilstandsverdifunksjon og aksjonsverdifunksjon. Men for DP-metoder vil tilstandsverdifunksjonen bli brukt.
Nå som du kan estimere tilstandsverdifunksjonen for en hvilken som helst policy, er et naturlig neste steg å undersøke om det finnes noen policyer som er bedre enn den nåværende. En måte å gjøre dette på, er å vurdere å ta en annen handling a i en tilstand s, og deretter følge den nåværende policyen. Hvis dette virker kjent, er det fordi dette ligner på hvordan vi definerer aksjonsverdifunksjonen:
qπ(s,a)=s′,r∑p(s′,r∣s,a)(r+γvπ(s′))Hvis denne nye verdien er større enn den opprinnelige tilstandsverdien vπ(s), indikerer det at å velge handling a i tilstand s og deretter fortsette med politikk π gir bedre resultater enn å følge politikk π strengt. Siden tilstander er uavhengige, er det optimalt å alltid velge handling a hver gang tilstand s oppstår. Derfor kan vi konstruere en forbedret politikk π′, identisk med π bortsett fra at den velger handling a i tilstand s, noe som vil være bedre enn den opprinnelige politikken π.
Teorem for politikkforbedring
Resonnementet beskrevet ovenfor kan generaliseres som teorem for politikkforbedring:
⟹qπ(s,π′(s))≥vπ(s)vπ′(s)≥vπ(s)∀s∈S∀s∈SBeviset for denne teoremet er relativt enkelt, og kan oppnås ved en gjentatt substitusjon:
vπ(s)≤qπ(s,π′(s))=Eπ′[Rt+1+γvπ(St+1)∣St=s]≤Eπ′[Rt+1+γqπ(St+1,π′(St+1))∣St=s]=Eπ′[Rt+1+γEπ′[Rt+2+γvπ(St+2)]∣St=s]=Eπ′[Rt+1+γRt+2+γ2vπ(St+2)∣St=s]...≤Eπ′[Rt+1+γRt+2+γ2Rt+3+...∣St=s]=vπ′(s)Forbedringsstrategi
Selv om det å oppdatere handlinger for enkelte tilstander kan føre til forbedringer, er det mer effektivt å oppdatere handlinger for alle tilstander samtidig. Spesielt, for hver tilstand s, velg den handlingen a som maksimerer handlingsverdien qπ(s,a):
π′(s)←aargmaxqπ(s,a)←aargmaxs′,r∑p(s′,r∣s,a)(r+γvπ(s′))hvor argmax (forkortelse for argumentet til maksimumet) er en operator som returnerer verdien av variabelen som maksimerer en gitt funksjon.
Den resulterende grådige policyen, betegnet som π′, oppfyller betingelsene i policy improvement-teoremet ved konstruksjon, noe som garanterer at π′ er minst like god som den opprinnelige policyen π, og vanligvis bedre.
Hvis π′ er like god som, men ikke bedre enn π, er både π′ og π optimale policyer, ettersom deres verdifunksjoner er like og oppfyller Bellmans optimalitetslikning:
vπ(s)=amaxs′,r∑p(s′,r∣s,a)(r+γvπ(s′))Takk for tilbakemeldingene dine!
Spør AI
Spør AI
Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår
Awesome!
Completion rate improved to 2.7
Policyforbedring
Sveip for å vise menyen
Policy improvement er en prosess for å forbedre policyen basert på nåværende estimater av verdifunksjonen.
Akkurat som med policy-evaluering, kan policyforbedring benytte både tilstandsverdifunksjon og aksjonsverdifunksjon. Men for DP-metoder vil tilstandsverdifunksjonen bli brukt.
Nå som du kan estimere tilstandsverdifunksjonen for en hvilken som helst policy, er et naturlig neste steg å undersøke om det finnes noen policyer som er bedre enn den nåværende. En måte å gjøre dette på, er å vurdere å ta en annen handling a i en tilstand s, og deretter følge den nåværende policyen. Hvis dette virker kjent, er det fordi dette ligner på hvordan vi definerer aksjonsverdifunksjonen:
qπ(s,a)=s′,r∑p(s′,r∣s,a)(r+γvπ(s′))Hvis denne nye verdien er større enn den opprinnelige tilstandsverdien vπ(s), indikerer det at å velge handling a i tilstand s og deretter fortsette med politikk π gir bedre resultater enn å følge politikk π strengt. Siden tilstander er uavhengige, er det optimalt å alltid velge handling a hver gang tilstand s oppstår. Derfor kan vi konstruere en forbedret politikk π′, identisk med π bortsett fra at den velger handling a i tilstand s, noe som vil være bedre enn den opprinnelige politikken π.
Teorem for politikkforbedring
Resonnementet beskrevet ovenfor kan generaliseres som teorem for politikkforbedring:
⟹qπ(s,π′(s))≥vπ(s)vπ′(s)≥vπ(s)∀s∈S∀s∈SBeviset for denne teoremet er relativt enkelt, og kan oppnås ved en gjentatt substitusjon:
vπ(s)≤qπ(s,π′(s))=Eπ′[Rt+1+γvπ(St+1)∣St=s]≤Eπ′[Rt+1+γqπ(St+1,π′(St+1))∣St=s]=Eπ′[Rt+1+γEπ′[Rt+2+γvπ(St+2)]∣St=s]=Eπ′[Rt+1+γRt+2+γ2vπ(St+2)∣St=s]...≤Eπ′[Rt+1+γRt+2+γ2Rt+3+...∣St=s]=vπ′(s)Forbedringsstrategi
Selv om det å oppdatere handlinger for enkelte tilstander kan føre til forbedringer, er det mer effektivt å oppdatere handlinger for alle tilstander samtidig. Spesielt, for hver tilstand s, velg den handlingen a som maksimerer handlingsverdien qπ(s,a):
π′(s)←aargmaxqπ(s,a)←aargmaxs′,r∑p(s′,r∣s,a)(r+γvπ(s′))hvor argmax (forkortelse for argumentet til maksimumet) er en operator som returnerer verdien av variabelen som maksimerer en gitt funksjon.
Den resulterende grådige policyen, betegnet som π′, oppfyller betingelsene i policy improvement-teoremet ved konstruksjon, noe som garanterer at π′ er minst like god som den opprinnelige policyen π, og vanligvis bedre.
Hvis π′ er like god som, men ikke bedre enn π, er både π′ og π optimale policyer, ettersom deres verdifunksjoner er like og oppfyller Bellmans optimalitetslikning:
vπ(s)=amaxs′,r∑p(s′,r∣s,a)(r+γvπ(s′))Takk for tilbakemeldingene dine!