Kursinnhold
Introduksjon til Forsterkende Læring
Introduksjon til Forsterkende Læring
Generalisert Policyiterasjon
I tidligere kapitler lærte du om policyevaluering og policyforbedring. Disse prosessene utfyller hverandre og kombineres naturlig i et rammeverk kjent som generalisert policyiterasjon.
Generalisert policyiterasjon (GPI) er et rammeverk der policyevaluering og policyforbedring samhandler iterativt med det felles målet å finne en optimal policy.
De fleste metoder innenfor forsterkende læring kan beskrives innenfor rammen av GPI. Hovedforskjellene mellom disse metodene skyldes spesifikke implementasjoner av policyevaluering og policyforbedring, samt måten de samhandler på.
Samspill mellom to prosesser
Policyevaluering og policyforbedring kan betraktes som både samarbeidende og konkurrerende prosesser, avhengig av perspektivet:
- Samarbeidende: begge prosessene arbeider mot et felles mål—å finne optimal policy og verdifunksjon. Policyevaluering estimerer verdifunksjonen for en gitt policy, mens policyforbedring forbedrer policyen basert på disse estimatene;
- Konkurrerende: hver prosess har motstridende mål. Policyevaluering har som mål å nøyaktig estimere verdifunksjonen for gjeldende policy, noe som ofte fører til at policyen ikke lenger er grådig. Omvendt justerer policyforbedring policyen til å være grådig med hensyn til de nåværende verdifunksjonsestimatene, noe som vanligvis gjør disse estimatene feilaktige. Denne konstante dragkampen fortsetter til både policy og verdifunksjon konvergerer mot sine optimale former.
Sammendrag
Generalisert policyiterasjon er et nyttig rammeverk for å forstå hvordan ulike metoder innenfor forsterkende læring nærmer seg løsningen av MDP-er. I de kommende kapitlene vil du utforske hvordan disse ideene kan brukes til å lage to essensielle DP-metoder: policyiterasjon og verdiiterasjon.
Takk for tilbakemeldingene dine!