Oppiskele Off-Policy Monte Carlo -ohjaus | Monte Carlo -Menetelmät

Siinä missä on-policy-menetelmät oppivat seuraamalla ja parantamalla samaa politiikkaa, off-policy-menetelmät tuovat mukanaan uuden näkökulman: ne oppivat yhdestä politiikasta (kohdepolitiikka) samalla kun ne seuraavat toista (käyttäytymispolitiikka). Tämä erottelu on tehokas — se mahdollistaa kohdepolitiikan arvioinnin tai parantamisen ilman, että sitä tarvitsee noudattaa tiedonkeruun aikana.

Vertauskuva

Palataanpa jäätelökauppaan edellisestä luvusta. Sinä ja ystäväsi astutte sisään, ja jälleen tarjolla ovat kolme tuttua makua: suklaa, vanilja ja mansikka. Suklaa on oma suosikkisi, ja ensimmäinen ajatuksesi on tilata sitä. Mutta tämä kauppa on sinulle uusi, etkä ole aivan varma, onko suklaan valinta oikea. Onneksi ystäväsi on tunnettu jäätelönystävä, joka on käynyt lähes kaikissa kaupungin jäätelöbaareissa. Kysyt hänen mielipidettään. "Suklaa täällä on ihan ok," hän sanoo, "mutta usko pois — mansikka on poikkeuksellisen hyvää." Joten hänen kokemuksensa perusteella päätät jättää tavanomaisen valintasi väliin ja valita mansikan.

Tämä päätös — luottaa jonkun toisen kokemukseen oman valinnan ohjaamiseksi — on off-policy-menetelmien ydin. Pyrit parantamaan päätöksentekoasi käyttämällä dataa, joka on kerätty jonkun toisen käyttäytymisen perusteella. Kyseessä on edelleen tutkiminen, mutta sitä ohjaa ulkoinen kokemus oman sijaan.

Tärkeyspainotus

Koska agentti seuraa käyttäytymispolitiikkaa jaksojen muodostamisen aikana, meidän täytyy huomioida ero, joka syntyy siitä, mitä käyttäytymispolitiikka tuottaa ja mitä kohdepolitiikka tuottaisi. Tässä kohtaa tärkeyspainotus astuu kuvaan.

Tärkeyden painottaminen (importance sampling) tarjoaa tavan säätää käyttäytymispolitiikan (behavior policy) alla havaittuja tuottoja niin, että ne ovat kelvollisia arvioita kohdepolitiikalle (target policy).

Tarkastellaan polkua, joka alkaa tietyssä tilassa $S_t$ ja seuraa tiettyä politiikkaa $\pi$ , kunnes episodi päättyy ajanhetkellä $T$ . Erityisesti havaitsemme:

A_t, S_{t+1}, A_{t+1}, ..., S_{T}

Mikä on tämän polun todennäköisyys politiikan $\pi$ alla? Se riippuu sekä politiikan toimintatodennäköisyyksistä että ympäristön siirtymädynamiikasta:

p(trajectory | \pi) = \prod_{k=t}^{T-1} \pi(A_k | S_k)p(S_{k+1} | S_k, A_k)

Oletetaan nyt, että polku onkin itse asiassa tuotettu eri politiikalla — käyttäytymispolitiikalla $b$ . Jotta voimme käyttää tätä polkua odotusten arvioimiseen kohdepolitiikan $\pi$ alla, meidän täytyy huomioida, kuinka paljon todennäköisempi tai epätodennäköisempi tämä toimintojen sarja olisi ollut $\pi$ :n alla verrattuna $b$ :hen.

Tässä kohtaa tärkeyden painotussuhde (importance sampling ratio) astuu kuvaan. Se määritellään polun suhteellisena todennäköisyytenä kahden politiikan alla:

\rho = \frac{p(trajectory | \pi)}{p(trajectory | b)} = \prod_{k=t}^{T-1} \frac{\pi(A_k | S_k)p(S_{k+1} | S_k, A_k)}{b(A_k | S_k)p(S_{k+1} | S_k, A_k)} = \prod_{k=t}^{T-1} \frac{\pi(A_k | S_k)}{b(A_k | S_k)}

Lopulta siirtymätodennäköisyydet kumoutuivat, koska molemmat politiikat toimivat samassa ympäristössä, ja $\rho$ :n arvo riippuu vain politiikoista, ei ympäristöstä.

Miksi tämä on tärkeää

Suhde $\rho$ kertoo, miten käyttäytymispolitiikan alla havaittu tuotto $G_t$ painotetaan uudelleen, jotta siitä saadaan harhaton arvio siitä, millainen tuotto olisi ollut kohdepolitiikan alla:

\def\E{\operatorname{\mathbb{E}}} \E_\pi[G_t] = \E_b[\rho \cdot G_t]

Toisin sanoen, vaikka data kerättiin käyttäen $b$ :tä, voimme silti arvioida odotetut tuotot $\pi$ :n alla — edellyttäen, että $b$ antaa nollasta poikkeavan todennäköisyyden jokaiselle toiminnolle, jonka $\pi$ saattaa valita (peittävyysoletus, assumption of coverage).

Käytännön näkökohdat

Tärkeyspainotuksen varianssi

Tärkeyspainotuksen (importance sampling) sisällyttäminen on käsitteellisesti suoraviivaista. Arvioitua toimintojen arvofunktiota $q(s, a)$ säädetään painottamalla jokaista havaittua tuottoa vastaavalla tärkeyspainotuksen kertoimella. Yksinkertaisin muotoilu näyttää tältä:

q(s, a) = \frac{\sum_{i=0}^{N(s, a)} \rho_i(s, a) \cdot Returns_i(s, a)}{N(s, a)}

missä:

$\rho_i(s, a)$ on tärkeyspainotuksen kerroin $i$ :nnessä trajektoriassa alkaen tilasta $(s, a)$ ;
$Returns_i(s, a)$ on kyseisen trajektorian tuotto;
$N(s, a)$ on niiden kertojen määrä, jolloin $(s, a)$ on vierailtu.

Tätä kutsutaan tavalliseksi tärkeyspainotukseksi (ordinary importance sampling). Se antaa harhattoman arvion $q(s, a)$ :sta, mutta voi kärsiä hyvin suuresta varianssista, erityisesti silloin kun käyttäytymis- ja kohdepolitiikat eroavat merkittävästi toisistaan.

Varianssiongelman lieventämiseksi voidaan käyttää vakaampaa vaihtoehtoa: painotettu tärkeyspainotus (weighted importance sampling). Tässä menetelmässä tärkeyspainot normalisoidaan, mikä vähentää suurten kertoimien vaikutusta ja johtaa vakaampaan oppimiseen:

q(s, a) = \frac{\sum_{i=0}^{N(s, a)} \rho_i(s, a) \cdot Returns_i(s, a)}{\sum_{i=0}^{N(s, a)} \rho_i(s, a)}

Tässä versiossa osoittaja on sama painotettu tuottojen summa, mutta nimittäjä on nyt tärkeyspainojen summa yksinkertaisen laskennan sijaan.

Tämä tekee arviosta harhaisen, mutta harha pienenee otoskoon kasvaessa. Käytännössä painotettu tärkeyspainotus on suositeltavaa huomattavasti pienemmän varianssin ja paremman numeerisen vakauden vuoksi.

Politiikat

Kuten on-policy-tapauksessa, käytetään $\varepsilon$ -ahneita politiikkoja sekä kohdepolitiikalle $\pi(a | s)$ että käyttäytymispolitiikalle $b(a | s)$ .

Aluksi saattaa vaikuttaa luonnolliselta tehdä kohdepolitiikasta täysin ahne — lopullinen tavoitteemme onhan ahne politiikka. Käytännössä tämä kuitenkin aiheuttaa merkittävän ongelman: jos jossain vaiheessa $\pi(a | s) = 0$ sille toiminnolle, jonka käyttäytymispolitiikka todella valitsi, tärkeyden painotussuhde $\rho$ muuttuu nollaksi ja jakson loppuosa jätetään käytännössä huomiotta.

Käyttämällä pientä $\varepsilon$ -arvoa (esim. $\varepsilon = 0{,}01$ ) kohdepolitiikassa varmistetaan, että $\pi(a | s) > 0$ kaikille toiminnoille, joten $\rho$ ei koskaan romahda nollaan kesken jakson. Kun koulutus on valmis, opittu $\varepsilon$ -ahne politiikka voidaan helposti muuntaa täysin ahneeksi. Kuten on-policy-oppimisessa, käyttäytymispolitiikassa tulisi käyttää laskevaa $\varepsilon$ -arvoa, mutta tällä kertaa pääasiassa numeerisen vakauden vuoksi, sillä $\rho$ voi silti pudota nollaan kesken jakson, johtuen siitä, miten luvut esitetään tietokoneissa.

Pseudokoodi

Oliko kaikki selvää?

Kiitos palautteestasi!

Osio 4. Luku 6

Kysy tekoälyä

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Pyyhkäise näyttääksesi valikon