Kursinnhold
Introduksjon til Forsterkende Læring
Introduksjon til Forsterkende Læring
Off-Policy Monte Carlo-Kontroll
Mens on-policy-metoder lærer ved å følge og forbedre den samme policyen, introduserer off-policy-metoder en vri: de lærer om én policy (målpolicyen) mens de følger en annen (atferdspolicyen). Denne adskillelsen er kraftfull — det gjør det mulig å evaluere eller forbedre en målpolicy uten å faktisk måtte følge den under datainnsamlingen.
Analogi
La oss gå tilbake til iskrembutikken fra forrige kapittel. Du og vennen din går inn, og igjen tilbys de tre kjente smakene: sjokolade, vanilje og jordbær. Sjokolade er din personlige favoritt, og din første impuls er å bestille den. Men denne butikken er ny for deg, og du er ikke helt sikker på om sjokolade er det riktige valget. Heldigvis er vennen din en fremtredende iskremelsker som har besøkt nesten alle butikker i byen. Du spør om deres mening. "Sjokoladen her er grei," sier de, "men stol på meg — jordbæren er eksepsjonell." Så, basert på deres erfaring, bestemmer du deg for å droppe ditt vanlige valg og gå for jordbær i stedet.
Den avgjørelsen — å stole på andres erfaring for å veilede egne valg — er kjernen i off-policy-metoder. Du forsøker å forbedre beslutningstakingen din ved å bruke data samlet inn under andres atferd. Det er fortsatt utforskning — men den er styrt av ekstern erfaring i stedet for din egen.
Importance Sampling
Fordi agenten følger atferdspolicyen under generering av episoder, må vi ta hensyn til forskjellen mellom hva atferdspolicyen genererer og hva målpolicyen ville generert. Det er her importance sampling kommer inn.
Importance sampling gir en metode for å justere avkastningen observert under atferdspolicyen slik at de blir gyldige estimater for målpolicyen.
La oss se på en trajektorie som starter fra en gitt tilstand og følger en policy til episoden avsluttes ved tid . Spesifikt observerer vi:
Hva er sannsynligheten for at denne trajektorien oppstår under en policy ? Det avhenger både av policyens handlingssannsynligheter og miljøets overgangsdynamikk:
Anta nå at trajektorien faktisk ble generert av en annen policy — atferdspolicyen . For å bruke denne trajektorien til å estimere forventninger under målpolicyen , må vi ta hensyn til hvor mye mer eller mindre sannsynlig denne sekvensen av handlinger ville vært under sammenlignet med .
Dette er hvor importance sampling-forholdet kommer inn. Det er definert som den relative sannsynligheten for trajektorien under de to policyene:
Til slutt kansellerte overgangssannsynlighetene hverandre ut, siden begge policyene opererer i det samme miljøet, og verdien til avhenger kun av policyene, ikke miljøet.
Hvorfor dette er viktig
Forholdet forteller oss hvordan vi kan omvekte avkastningen observert under atferdspolicyen slik at det blir et forventningsrett estimat av hva avkastningen ville vært under målpolicyen:
Med andre ord, selv om dataene ble samlet inn ved bruk av , kan vi fortsatt estimere forventet avkastning under — forutsatt at gir ikke-null sannsynlighet til hver handling som kan ta (dekningforutsetning).
Praktiske hensyn
Varians ved importance sampling
Å inkludere importance sampling er konseptuelt enkelt. Vi justerer den estimerte handlingsverdifunksjonen ved å vekte hver observert retur med den tilhørende importance sampling-ratioen. Den enkleste formuleringen ser slik ut:
hvor:
- er importance sampling-ratioen for den -te trajektorien som starter fra ;
- er returen fra den trajektorien;
- er antall ganger har blitt besøkt.
Dette kalles ordinær importance sampling. Det gir et upartisk estimat av , men kan ha svært høy varians, spesielt når atferds- og målpolitikken skiller seg betydelig.
For å redusere variansen kan vi bruke et mer stabilt alternativ: vektet importance sampling. Denne metoden normaliserer importance-vektene, noe som reduserer effekten av store ratioer og gir mer stabil læring:
I denne versjonen er telleren den samme vektede summen av returene, men nevneren er nå summen av importance-vektene, i stedet for et enkelt antall.
Dette gjør estimatet partisk, men biasen avtar etter hvert som flere utvalg samles inn. I praksis foretrekkes vektet importance sampling på grunn av betydelig lavere varians og større numerisk stabilitet.
Policyer
Som i on-policy-tilfellet, la oss bruke -grådige policyer for både målpolicy og atferdspolicy .
Ved første øyekast virker det naturlig å gjøre målpolicyen fullt ut grådig — til syvende og sist er vårt endelige mål en grådig policy. I praksis fører dette imidlertid til et stort problem: hvis det på noe tidspunkt er slik at for handlingen som faktisk ble valgt av atferdspolicyen, blir importance sampling-forholdet lik null, og resten av episoden blir effektivt forkastet.
Ved å bruke en liten (for eksempel ) i målpolicyen, sikrer vi at for hver handling, slik at aldri kollapser til null midt i episoden. Når treningen er ferdig, er det trivielt å konvertere den lærte ‑grådige policyen til en strengt grådig policy. Som ved on-policy-læring bør avtagende brukes i atferdspolicyen, men denne gangen er det hovedsakelig for numerisk stabilitet, siden fortsatt kan falle til null midt i episoden på grunn av hvordan tall representeres i datamaskiner.
Pseudokode
Takk for tilbakemeldingene dine!