Lære Off-Policy Monte Carlo-Kontroll

Mens on-policy-metoder lærer ved å følge og forbedre den samme policyen, introduserer off-policy-metoder en vri: de lærer om én policy (målpolicyen) mens de følger en annen (atferdspolicyen). Denne adskillelsen er kraftfull — det gir oss mulighet til å evaluere eller forbedre en målpolicy uten å faktisk måtte følge den under datainnsamlingen.

Analogi

La oss gå tilbake til iskrembutikken fra forrige kapittel. Du og vennen din går inn, og igjen tilbys de tre kjente smakene: sjokolade, vanilje og jordbær. Sjokolade er din personlige favoritt, og din første impuls er å bestille den. Men denne butikken er ny for deg, og du er ikke helt sikker på om sjokolade er det riktige valget. Heldigvis er vennen din en fremtredende iskremelsker som har besøkt nesten alle butikker i byen. Du spør om deres mening. "Sjokoladen her er grei," sier de, "men stol på meg — jordbæren er eksepsjonell." Så, basert på deres erfaring, bestemmer du deg for å hoppe over ditt vanlige valg og velge jordbær i stedet.

Denne avgjørelsen — å stole på andres erfaring for å veilede egne valg — er kjernen i off-policy-metoder. Her forsøkes det å forbedre beslutningstaking ved å bruke data samlet inn under en annens atferd. Det er fortsatt utforskning — men det styres av ekstern erfaring i stedet for egen.

Importance Sampling

Fordi agenten følger atferdspolicyen under generering av episoder, må det tas hensyn til forskjellen mellom hva atferdspolicyen genererer og hva målpolicyen ville generert. Det er her importance sampling benyttes.

Importance sampling gir en metode for å justere avkastningen observert under atferdspolicyen slik at de blir gyldige estimater for målpolicyen.

La oss se på en trajektorie som starter fra en gitt tilstand $S_t$ og følger en policy $\pi$ til episoden avsluttes ved tid $T$ . Spesifikt observerer vi:

A_t, S_{t+1}, A_{t+1}, ..., S_{T}

Hva er sannsynligheten for at denne trajektorien oppstår under en policy $\pi$ ? Det avhenger både av policyens handlingssannsynligheter og miljøets overgangsdynamikk:

p(trajectory | \pi) = \prod_{k=t}^{T-1} \pi(A_k | S_k)p(S_{k+1} | S_k, A_k)

Anta nå at trajektorien faktisk ble generert av en annen policy — atferdspolicyen $b$ . For å bruke denne trajektorien til å estimere forventninger under målpolicyen $\pi$ , må vi ta hensyn til hvor mye mer eller mindre sannsynlig denne sekvensen av handlinger ville vært under $\pi$ sammenlignet med $b$ .

Dette er hvor importance sampling-forholdet kommer inn. Det er definert som den relative sannsynligheten for trajektorien under de to policyene:

\rho = \frac{p(trajectory | \pi)}{p(trajectory | b)} = \prod_{k=t}^{T-1} \frac{\pi(A_k | S_k)p(S_{k+1} | S_k, A_k)}{b(A_k | S_k)p(S_{k+1} | S_k, A_k)} = \prod_{k=t}^{T-1} \frac{\pi(A_k | S_k)}{b(A_k | S_k)}

Til slutt kansellerte overgangssannsynlighetene hverandre ut, siden begge policyene opererer i det samme miljøet, og verdien av $\rho$ avhenger kun av policyene, ikke miljøet.

Hvorfor dette er viktig

Forholdet $\rho$ forteller oss hvordan vi kan omvekte avkastningen $G_t$ observert under atferdspolicyen slik at det blir et forventningsrett estimat av hva avkastningen ville vært under målpolicyen:

\def\E{\operatorname{\mathbb{E}}} \E_\pi[G_t] = \E_b[\rho \cdot G_t]

Med andre ord, selv om dataene ble samlet inn ved bruk av $b$ , kan vi fortsatt estimere forventet avkastning under $\pi$ — forutsatt at $b$ gir ikke-null sannsynlighet til hver handling som $\pi$ kan velge (dekningforutsetning).

Praktiske hensyn

Varians ved importance sampling

Å inkludere importance sampling er konseptuelt enkelt. Vi justerer den estimerte aksjonsverdifunksjonen $q(s, a)$ ved å vekte hver observert retur med den tilsvarende importance sampling-ratioen. Den enkleste formuleringen ser slik ut:

q(s, a) = \frac{\sum_{i=0}^{N(s, a)} \rho_i(s, a) \cdot Returns_i(s, a)}{N(s, a)}

hvor:

$\rho_i(s, a)$ er importance sampling-ratioen for den $i$ -te trajektorien som starter fra $(s, a)$ ;
$Returns_i(s, a)$ er returen fra denne trajektorien;
$N(s, a)$ er antall ganger $(s, a)$ har blitt besøkt.

Dette kalles ordinær importance sampling. Det gir et upartisk estimat av $q(s, a)$ , men kan ha svært høy varians, spesielt når atferdspolicyen og målpolicyen er svært forskjellige.

For å redusere variansen kan vi bruke et mer stabilt alternativ: vektet importance sampling. Denne metoden normaliserer importance-vektene, noe som reduserer påvirkningen av store ratioer og gir mer stabil læring:

q(s, a) = \frac{\sum_{i=0}^{N(s, a)} \rho_i(s, a) \cdot Returns_i(s, a)}{\sum_{i=0}^{N(s, a)} \rho_i(s, a)}

I denne versjonen er telleren den samme vektede summen av returene, men nevneren er nå summen av importance-vektene, i stedet for et enkelt antall.

Dette gjør estimatet partisk, men biasen reduseres etter hvert som flere utvalg samles inn. I praksis foretrekkes vektet importance sampling på grunn av betydelig lavere varians og større numerisk stabilitet.

Policyer

Som i on-policy-tilfellet, la oss bruke $\varepsilon$ -grådige policyer for både målpolicy $\pi(a | s)$ og atferdspolicy $b(a | s)$ .

Ved første øyekast virker det naturlig å gjøre målpolicyen fullt ut grådig — til syvende og sist er vårt endelige mål en grådig policy. I praksis fører dette imidlertid til et stort problem: hvis det på et hvilket som helst steg gjelder at $\pi(a | s) = 0$ for handlingen som faktisk ble valgt av atferdspolicyen, blir importance sampling-forholdet $\rho$ lik null, og resten av episoden blir effektivt forkastet.

Ved å bruke en liten $\varepsilon$ (for eksempel $\varepsilon = 0.01$ ) i målpolicyen, sikrer vi at $\pi(a | s) > 0$ for alle handlinger, slik at $\rho$ aldri kollapser til null midt i episoden. Når treningen er ferdig, er det trivielt å konvertere den lærte $\varepsilon$ ‑grådige policyen til en strengt grådig policy. Som ved on-policy-læring bør avtagende $\varepsilon$ brukes i atferdspolicyen, men denne gangen er det hovedsakelig for numerisk stabilitet, siden $\rho$ fortsatt kan falle til null midt i episoden på grunn av hvordan tall representeres i datamaskiner.

Pseudokode

Alt var klart?

Takk for tilbakemeldingene dine!

Seksjon 4. Kapittel 6

Spør AI

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Suggested prompts:

Can you explain the difference between ordinary and weighted importance sampling in more detail?

Why does using a fully greedy target policy cause problems in off-policy learning?

Can you summarize the key advantages of off-policy methods compared to on-policy methods?

Sveip for å vise menyen