Kursinnhold
Introduksjon til Forsterkende Læring
Introduksjon til Forsterkende Læring
Policyforbedring
Policy improvement er en prosess for å forbedre policyen basert på nåværende estimater av verdifunksjonen.
Akkurat som med policy-evaluering, kan policyforbedring benytte både tilstandsverdifunksjon og aksjonsverdifunksjon. Men for DP-metoder vil tilstandsverdifunksjonen bli brukt.
Nå som du kan estimere tilstandsverdifunksjonen for en hvilken som helst policy, er et naturlig neste steg å undersøke om det finnes noen policyer som er bedre enn den nåværende. En måte å gjøre dette på, er å vurdere å ta en annen handling i en tilstand , og deretter følge den nåværende policyen. Hvis dette virker kjent, er det fordi dette ligner på hvordan vi definerer aksjonsverdifunksjonen:
Hvis denne nye verdien er større enn den opprinnelige tilstandsverdien , indikerer det at å velge handling i tilstand og deretter fortsette med politikk gir bedre resultater enn å følge politikk strengt. Siden tilstander er uavhengige, er det optimalt å alltid velge handling hver gang tilstand oppstår. Derfor kan vi konstruere en forbedret politikk , identisk med bortsett fra at den velger handling i tilstand , noe som vil være bedre enn den opprinnelige politikken .
Teorem for politikkforbedring
Resonnementet beskrevet ovenfor kan generaliseres som teorem for politikkforbedring:
Beviset for denne teoremet er relativt enkelt, og kan oppnås ved en gjentatt substitusjon:
Forbedringsstrategi
Selv om det å oppdatere handlinger for enkelte tilstander kan føre til forbedringer, er det mer effektivt å oppdatere handlinger for alle tilstander samtidig. Spesielt, for hver tilstand , velg den handlingen som maksimerer handlingsverdien :
hvor (forkortelse for argumentet til maksimumet) er en operator som returnerer verdien av variabelen som maksimerer en gitt funksjon.
Den resulterende grådige policyen, betegnet som , oppfyller betingelsene i policy improvement-teoremet ved konstruksjon, noe som garanterer at er minst like god som den opprinnelige policyen , og vanligvis bedre.
Hvis er like god som, men ikke bedre enn , er både og optimale policyer, ettersom deres verdifunksjoner er like og oppfyller Bellmans optimalitetslikning:
Takk for tilbakemeldingene dine!