Policyforbedring
Polisforbedring er en prosess der man forbedrer en politikk basert på nåværende estimater av verdifunksjonen.
Som ved polisevaluering kan polisforbedring benytte både tilstandsverdifunksjon og aksjonsverdifunksjon. For DP-metoder vil tilstandsverdifunksjon bli brukt.
Nå som du kan estimere tilstandsverdifunksjonen for en hvilken som helst politikk, er et naturlig neste steg å undersøke om det finnes noen policyer som er bedre enn den nåværende. En måte å gjøre dette på, er å vurdere å ta en annen handling a i en tilstand s, og deretter følge den nåværende policyen. Hvis dette virker kjent, er det fordi dette ligner på hvordan vi definerer aksjonsverdifunksjonen:
qπ(s,a)=s′,r∑p(s′,r∣s,a)(r+γvπ(s′))Hvis denne nye verdien er større enn den opprinnelige tilstandsverdien vπ(s), indikerer det at å velge handling a i tilstand s og deretter fortsette med politikk π gir bedre resultater enn å følge politikk π strengt. Siden tilstander er uavhengige, er det optimalt å alltid velge handling a hver gang tilstand s oppstår. Derfor kan vi konstruere en forbedret politikk π′, identisk med π bortsett fra at den velger handling a i tilstand s, noe som vil være bedre enn den opprinnelige politikken π.
Teorem for politikkforbedring
Resonnementet beskrevet ovenfor kan generaliseres som teorem for politikkforbedring:
⟹qπ(s,π′(s))≥vπ(s)vπ′(s)≥vπ(s)∀s∈S∀s∈SBeviset for denne teoremet er relativt enkelt, og kan oppnås ved en gjentatt substitusjon:
vπ(s)≤qπ(s,π′(s))=Eπ′[Rt+1+γvπ(St+1)∣St=s]≤Eπ′[Rt+1+γqπ(St+1,π′(St+1))∣St=s]=Eπ′[Rt+1+γEπ′[Rt+2+γvπ(St+2)]∣St=s]=Eπ′[Rt+1+γRt+2+γ2vπ(St+2)∣St=s]...≤Eπ′[Rt+1+γRt+2+γ2Rt+3+...∣St=s]=vπ′(s)Forbedringsstrategi
Selv om oppdatering av handlinger for enkelte tilstander kan føre til forbedringer, er det mer effektivt å oppdatere handlinger for alle tilstander samtidig. Spesielt, for hver tilstand s, velg handlingen a som maksimerer handlingsverdien qπ(s,a):
π′(s)←aargmaxqπ(s,a)←aargmaxs′,r∑p(s′,r∣s,a)(r+γvπ(s′))hvor argmax (forkortelse for argumentet til maksimumet) er en operator som returnerer verdien av variabelen som maksimerer en gitt funksjon.
Den resulterende grådige policyen, betegnet som π′, oppfyller betingelsene i policy improvement-teoremet ved konstruksjon, noe som garanterer at π′ er minst like god som den opprinnelige policyen π, og vanligvis bedre.
Hvis π′ er like god som, men ikke bedre enn π, er både π′ og π optimale policyer, ettersom deres verdifunksjoner er like og oppfyller Bellmans optimalitetslikning:
vπ(s)=amaxs′,r∑p(s′,r∣s,a)(r+γvπ(s′))Takk for tilbakemeldingene dine!
Spør AI
Spør AI
Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår
Awesome!
Completion rate improved to 2.7
Policyforbedring
Sveip for å vise menyen
Polisforbedring er en prosess der man forbedrer en politikk basert på nåværende estimater av verdifunksjonen.
Som ved polisevaluering kan polisforbedring benytte både tilstandsverdifunksjon og aksjonsverdifunksjon. For DP-metoder vil tilstandsverdifunksjon bli brukt.
Nå som du kan estimere tilstandsverdifunksjonen for en hvilken som helst politikk, er et naturlig neste steg å undersøke om det finnes noen policyer som er bedre enn den nåværende. En måte å gjøre dette på, er å vurdere å ta en annen handling a i en tilstand s, og deretter følge den nåværende policyen. Hvis dette virker kjent, er det fordi dette ligner på hvordan vi definerer aksjonsverdifunksjonen:
qπ(s,a)=s′,r∑p(s′,r∣s,a)(r+γvπ(s′))Hvis denne nye verdien er større enn den opprinnelige tilstandsverdien vπ(s), indikerer det at å velge handling a i tilstand s og deretter fortsette med politikk π gir bedre resultater enn å følge politikk π strengt. Siden tilstander er uavhengige, er det optimalt å alltid velge handling a hver gang tilstand s oppstår. Derfor kan vi konstruere en forbedret politikk π′, identisk med π bortsett fra at den velger handling a i tilstand s, noe som vil være bedre enn den opprinnelige politikken π.
Teorem for politikkforbedring
Resonnementet beskrevet ovenfor kan generaliseres som teorem for politikkforbedring:
⟹qπ(s,π′(s))≥vπ(s)vπ′(s)≥vπ(s)∀s∈S∀s∈SBeviset for denne teoremet er relativt enkelt, og kan oppnås ved en gjentatt substitusjon:
vπ(s)≤qπ(s,π′(s))=Eπ′[Rt+1+γvπ(St+1)∣St=s]≤Eπ′[Rt+1+γqπ(St+1,π′(St+1))∣St=s]=Eπ′[Rt+1+γEπ′[Rt+2+γvπ(St+2)]∣St=s]=Eπ′[Rt+1+γRt+2+γ2vπ(St+2)∣St=s]...≤Eπ′[Rt+1+γRt+2+γ2Rt+3+...∣St=s]=vπ′(s)Forbedringsstrategi
Selv om oppdatering av handlinger for enkelte tilstander kan føre til forbedringer, er det mer effektivt å oppdatere handlinger for alle tilstander samtidig. Spesielt, for hver tilstand s, velg handlingen a som maksimerer handlingsverdien qπ(s,a):
π′(s)←aargmaxqπ(s,a)←aargmaxs′,r∑p(s′,r∣s,a)(r+γvπ(s′))hvor argmax (forkortelse for argumentet til maksimumet) er en operator som returnerer verdien av variabelen som maksimerer en gitt funksjon.
Den resulterende grådige policyen, betegnet som π′, oppfyller betingelsene i policy improvement-teoremet ved konstruksjon, noe som garanterer at π′ er minst like god som den opprinnelige policyen π, og vanligvis bedre.
Hvis π′ er like god som, men ikke bedre enn π, er både π′ og π optimale policyer, ettersom deres verdifunksjoner er like og oppfyller Bellmans optimalitetslikning:
vπ(s)=amaxs′,r∑p(s′,r∣s,a)(r+γvπ(s′))Takk for tilbakemeldingene dine!