Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Off-Policy Monte Carlo -Ohjaus | Monte Carlo -menetelmät
Vahvistusoppimisen Perusteet

bookOff-Policy Monte Carlo -Ohjaus

Siinä missä on-policy-menetelmät oppivat seuraamalla ja parantamalla samaa politiikkaa, off-policy-menetelmät tuovat mukanaan uuden näkökulman: ne oppivat yhdestä politiikasta (kohdepolitiikka) samalla kun ne seuraavat toista (käyttäytymispolitiikka). Tämä erottelu on tehokas — se mahdollistaa kohdepolitiikan arvioinnin tai parantamisen ilman, että sitä tarvitsee noudattaa tiedonkeruun aikana.

Vertauskuva

Palataanpa edellisen luvun jäätelöbaariin. Sinä ja ystäväsi astutte sisään, ja jälleen tarjolla ovat kolme tuttua makua: suklaa, vanilja ja mansikka. Suklaa on oma suosikkisi, ja ensimmäinen ajatuksesi on tilata sitä. Tämä jäätelöbaari on kuitenkin sinulle uusi, etkä ole varma, onko suklaan valinta oikea. Onneksi ystäväsi on tunnettu jäätelön ystävä, joka on käynyt lähes kaikissa kaupungin jäätelöbaareissa. Kysyt hänen mielipidettään. "Suklaa täällä on ihan ok," hän sanoo, "mutta usko pois — mansikka on poikkeuksellisen hyvää." Niinpä päätät hänen kokemuksensa perusteella jättää tavanomaisen valintasi väliin ja valita mansikan.

Tuo päätös — luottaa jonkun toisen kokemukseen oman valinnan ohjaamisessa — on off-policy-menetelmien ydin. Pyrit parantamaan päätöksentekoasi hyödyntämällä dataa, joka on kerätty jonkun toisen käyttäytymisen perusteella. Kyseessä on edelleen tutkiminen, mutta sitä ohjaa ulkoinen kokemus oman sijaan.

Tärkeyspainotus

Koska agentti seuraa käyttäytymispolitiikkaa jaksojen tuottamisen aikana, meidän täytyy huomioida ero, joka syntyy siitä, mitä käyttäytymispolitiikka tuottaa ja mitä kohdepolitiikka tuottaisi. Tässä kohtaa tärkeyspainotus astuu kuvaan.

Tärkeyspainotus (importance sampling) tarjoaa keinon säätää käyttäytymispolitiikan (behavior policy) alla havaittuja tuottoja siten, että ne ovat kelvollisia estimaatteja kohdepolitiikalle (target policy).

Tarkastellaan polkua, joka alkaa tietyssä tilassa StS_t ja seuraa tiettyä politiikkaa π\pi, kunnes episodi päättyy ajanhetkellä TT. Erityisesti havainnoimme:

At,St+1,At+1,...,STA_t, S_{t+1}, A_{t+1}, ..., S_{T}

Mikä on tämän polun todennäköisyys politiikan π\pi alla? Se riippuu sekä politiikan toimintatodennäköisyyksistä että ympäristön siirtymädynamiikasta:

p(trajectoryπ)=k=tT1π(AkSk)p(Sk+1Sk,Ak)p(trajectory | \pi) = \prod_{k=t}^{T-1} \pi(A_k | S_k)p(S_{k+1} | S_k, A_k)

Oletetaan nyt, että polku onkin itse asiassa tuotettu eri politiikalla — käyttäytymispolitiikalla bb. Jotta voimme käyttää tätä polkua odotusarvojen estimaattina kohdepolitiikalle π\pi, meidän täytyy huomioida, kuinka paljon todennäköisempi tai epätodennäköisempi tämä toimintojen sarja olisi ollut politiikalla π\pi verrattuna bb:hen.

Tässä kohtaa tärkeyspainotussuhde astuu kuvaan. Se määritellään polun suhteellisena todennäköisyytenä kahden politiikan alla:

ρ=p(trajectoryπ)p(trajectoryb)=k=tT1π(AkSk)p(Sk+1Sk,Ak)b(AkSk)p(Sk+1Sk,Ak)=k=tT1π(AkSk)b(AkSk)\rho = \frac{p(trajectory | \pi)}{p(trajectory | b)} = \prod_{k=t}^{T-1} \frac{\pi(A_k | S_k)p(S_{k+1} | S_k, A_k)}{b(A_k | S_k)p(S_{k+1} | S_k, A_k)} = \prod_{k=t}^{T-1} \frac{\pi(A_k | S_k)}{b(A_k | S_k)}

Lopulta siirtymätodennäköisyydet supistuivat pois, koska molemmat politiikat toimivat samassa ympäristössä, ja ρ\rho:n arvo riippuu ainoastaan politiikoista, ei ympäristöstä.

Miksi tämä on tärkeää

Suhde ρ\rho kertoo, miten käyttäytymispolitiikalla havaittu tuotto GtG_t painotetaan uudelleen, jotta siitä saadaan harhaton estimaatti siitä, millainen tuotto olisi ollut kohdepolitiikalla:

Eπ[Gt]=Eb[ρGt]\def\E{\operatorname{\mathbb{E}}} \E_\pi[G_t] = \E_b[\rho \cdot G_t]

Toisin sanoen, vaikka data kerättiin politiikalla bb, voimme silti estimoida odotetut tuotot politiikalla π\pi — edellyttäen, että bb antaa nollasta poikkeavan todennäköisyyden jokaiselle toiminnolle, jonka π\pi saattaa valita (peittävyysoletus, assumption of coverage).

Käytännön näkökohdat

Tärkeyspainotuksen varianssi

Tärkeyspainotuksen sisällyttäminen on käsitteellisesti suoraviivaista. Arvioitua toimintojen arvofunktiota q(s,a)q(s, a) säädetään painottamalla jokaista havaittua tuottoa vastaavalla tärkeyspainotuksen kertoimella. Yksinkertaisin muotoilu näyttää tältä:

q(s,a)=i=0N(s,a)ρi(s,a)Returnsi(s,a)N(s,a)q(s, a) = \frac{\sum_{i=0}^{N(s, a)} \rho_i(s, a) \cdot Returns_i(s, a)}{N(s, a)}

missä:

  • ρi(s,a)\rho_i(s, a) on tärkeyspainotuksen kerroin ii:nnessä trajektoriassa alkaen tilasta (s,a)(s, a);
  • Returnsi(s,a)Returns_i(s, a) on kyseisen trajektorian tuotto;
  • N(s,a)N(s, a) on niiden kertojen määrä, jolloin (s,a)(s, a) on vierailtu.

Tätä kutsutaan tavalliseksi tärkeyspainotukseksi. Se antaa harhattoman arvion q(s,a)q(s, a):sta, mutta voi kärsiä hyvin suuresta varianssista, erityisesti silloin, kun käyttäytymis- ja kohdepolitiikat eroavat merkittävästi toisistaan.

Varianssiongelman lieventämiseksi voidaan käyttää vakaampaa vaihtoehtoa: painotettu tärkeyspainotus. Tässä menetelmässä tärkeyspainot normalisoidaan, mikä vähentää suurten kertoimien vaikutusta ja johtaa vakaampaan oppimiseen:

q(s,a)=i=0N(s,a)ρi(s,a)Returnsi(s,a)i=0N(s,a)ρi(s,a)q(s, a) = \frac{\sum_{i=0}^{N(s, a)} \rho_i(s, a) \cdot Returns_i(s, a)}{\sum_{i=0}^{N(s, a)} \rho_i(s, a)}

Tässä versiossa osoittaja on sama painotettu tuottojen summa, mutta nimittäjä on nyt tärkeyspainotusten summa yksinkertaisen laskennan sijaan.

Tämä tekee arviosta harhaisen, mutta harha pienenee näytteiden määrän kasvaessa. Käytännössä painotettu tärkeyspainotus on suositeltavaa huomattavasti pienemmän varianssin ja paremman numeerisen vakauden vuoksi.

Politiikat

Kuten on-policy-tapauksessa, käytetään ε\varepsilon-ahneita politiikkoja sekä kohdepolitiikalle π(as)\pi(a | s) että käyttäytymispolitiikalle b(as)b(a | s).

Aluksi saattaa vaikuttaa luonnolliselta tehdä kohdepolitiikasta täysin ahne — onhan lopullinen tavoitteemme ahne politiikka. Käytännössä tämä kuitenkin aiheuttaa merkittävän ongelman: jos jossain vaiheessa π(as)=0\pi(a | s) = 0 sille toiminnolle, jonka käyttäytymispolitiikka todella valitsi, tärkeyden painotussuhde ρ\rho muuttuu nollaksi ja jakson loppuosa käytännössä hylätään.

Käyttämällä pientä ε\varepsilon-arvoa (esim. ε=0.01\varepsilon = 0.01) kohdepolitiikassa varmistetaan, että π(as)>0\pi(a | s) > 0 kaikille toiminnoille, joten ρ\rho ei koskaan romahda nollaan kesken jakson. Kun koulutus on valmis, opittu ε\varepsilon-ahne politiikka voidaan helposti muuntaa täysin ahneeksi. Kuten on-policy-oppimisessa, käyttäytymispolitiikassa tulisi käyttää laskevaa ε\varepsilon-arvoa, mutta tällä kertaa pääasiassa numeerisen vakauden vuoksi, sillä ρ\rho voi silti pudota nollaan kesken jakson, johtuen tietokoneiden lukujen esitystavasta.

Pseudokoodi

question mark

Mikä on tärkeyspainotuksen tarkoitus?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 4. Luku 6

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Awesome!

Completion rate improved to 2.7

bookOff-Policy Monte Carlo -Ohjaus

Pyyhkäise näyttääksesi valikon

Siinä missä on-policy-menetelmät oppivat seuraamalla ja parantamalla samaa politiikkaa, off-policy-menetelmät tuovat mukanaan uuden näkökulman: ne oppivat yhdestä politiikasta (kohdepolitiikka) samalla kun ne seuraavat toista (käyttäytymispolitiikka). Tämä erottelu on tehokas — se mahdollistaa kohdepolitiikan arvioinnin tai parantamisen ilman, että sitä tarvitsee noudattaa tiedonkeruun aikana.

Vertauskuva

Palataanpa edellisen luvun jäätelöbaariin. Sinä ja ystäväsi astutte sisään, ja jälleen tarjolla ovat kolme tuttua makua: suklaa, vanilja ja mansikka. Suklaa on oma suosikkisi, ja ensimmäinen ajatuksesi on tilata sitä. Tämä jäätelöbaari on kuitenkin sinulle uusi, etkä ole varma, onko suklaan valinta oikea. Onneksi ystäväsi on tunnettu jäätelön ystävä, joka on käynyt lähes kaikissa kaupungin jäätelöbaareissa. Kysyt hänen mielipidettään. "Suklaa täällä on ihan ok," hän sanoo, "mutta usko pois — mansikka on poikkeuksellisen hyvää." Niinpä päätät hänen kokemuksensa perusteella jättää tavanomaisen valintasi väliin ja valita mansikan.

Tuo päätös — luottaa jonkun toisen kokemukseen oman valinnan ohjaamisessa — on off-policy-menetelmien ydin. Pyrit parantamaan päätöksentekoasi hyödyntämällä dataa, joka on kerätty jonkun toisen käyttäytymisen perusteella. Kyseessä on edelleen tutkiminen, mutta sitä ohjaa ulkoinen kokemus oman sijaan.

Tärkeyspainotus

Koska agentti seuraa käyttäytymispolitiikkaa jaksojen tuottamisen aikana, meidän täytyy huomioida ero, joka syntyy siitä, mitä käyttäytymispolitiikka tuottaa ja mitä kohdepolitiikka tuottaisi. Tässä kohtaa tärkeyspainotus astuu kuvaan.

Tärkeyspainotus (importance sampling) tarjoaa keinon säätää käyttäytymispolitiikan (behavior policy) alla havaittuja tuottoja siten, että ne ovat kelvollisia estimaatteja kohdepolitiikalle (target policy).

Tarkastellaan polkua, joka alkaa tietyssä tilassa StS_t ja seuraa tiettyä politiikkaa π\pi, kunnes episodi päättyy ajanhetkellä TT. Erityisesti havainnoimme:

At,St+1,At+1,...,STA_t, S_{t+1}, A_{t+1}, ..., S_{T}

Mikä on tämän polun todennäköisyys politiikan π\pi alla? Se riippuu sekä politiikan toimintatodennäköisyyksistä että ympäristön siirtymädynamiikasta:

p(trajectoryπ)=k=tT1π(AkSk)p(Sk+1Sk,Ak)p(trajectory | \pi) = \prod_{k=t}^{T-1} \pi(A_k | S_k)p(S_{k+1} | S_k, A_k)

Oletetaan nyt, että polku onkin itse asiassa tuotettu eri politiikalla — käyttäytymispolitiikalla bb. Jotta voimme käyttää tätä polkua odotusarvojen estimaattina kohdepolitiikalle π\pi, meidän täytyy huomioida, kuinka paljon todennäköisempi tai epätodennäköisempi tämä toimintojen sarja olisi ollut politiikalla π\pi verrattuna bb:hen.

Tässä kohtaa tärkeyspainotussuhde astuu kuvaan. Se määritellään polun suhteellisena todennäköisyytenä kahden politiikan alla:

ρ=p(trajectoryπ)p(trajectoryb)=k=tT1π(AkSk)p(Sk+1Sk,Ak)b(AkSk)p(Sk+1Sk,Ak)=k=tT1π(AkSk)b(AkSk)\rho = \frac{p(trajectory | \pi)}{p(trajectory | b)} = \prod_{k=t}^{T-1} \frac{\pi(A_k | S_k)p(S_{k+1} | S_k, A_k)}{b(A_k | S_k)p(S_{k+1} | S_k, A_k)} = \prod_{k=t}^{T-1} \frac{\pi(A_k | S_k)}{b(A_k | S_k)}

Lopulta siirtymätodennäköisyydet supistuivat pois, koska molemmat politiikat toimivat samassa ympäristössä, ja ρ\rho:n arvo riippuu ainoastaan politiikoista, ei ympäristöstä.

Miksi tämä on tärkeää

Suhde ρ\rho kertoo, miten käyttäytymispolitiikalla havaittu tuotto GtG_t painotetaan uudelleen, jotta siitä saadaan harhaton estimaatti siitä, millainen tuotto olisi ollut kohdepolitiikalla:

Eπ[Gt]=Eb[ρGt]\def\E{\operatorname{\mathbb{E}}} \E_\pi[G_t] = \E_b[\rho \cdot G_t]

Toisin sanoen, vaikka data kerättiin politiikalla bb, voimme silti estimoida odotetut tuotot politiikalla π\pi — edellyttäen, että bb antaa nollasta poikkeavan todennäköisyyden jokaiselle toiminnolle, jonka π\pi saattaa valita (peittävyysoletus, assumption of coverage).

Käytännön näkökohdat

Tärkeyspainotuksen varianssi

Tärkeyspainotuksen sisällyttäminen on käsitteellisesti suoraviivaista. Arvioitua toimintojen arvofunktiota q(s,a)q(s, a) säädetään painottamalla jokaista havaittua tuottoa vastaavalla tärkeyspainotuksen kertoimella. Yksinkertaisin muotoilu näyttää tältä:

q(s,a)=i=0N(s,a)ρi(s,a)Returnsi(s,a)N(s,a)q(s, a) = \frac{\sum_{i=0}^{N(s, a)} \rho_i(s, a) \cdot Returns_i(s, a)}{N(s, a)}

missä:

  • ρi(s,a)\rho_i(s, a) on tärkeyspainotuksen kerroin ii:nnessä trajektoriassa alkaen tilasta (s,a)(s, a);
  • Returnsi(s,a)Returns_i(s, a) on kyseisen trajektorian tuotto;
  • N(s,a)N(s, a) on niiden kertojen määrä, jolloin (s,a)(s, a) on vierailtu.

Tätä kutsutaan tavalliseksi tärkeyspainotukseksi. Se antaa harhattoman arvion q(s,a)q(s, a):sta, mutta voi kärsiä hyvin suuresta varianssista, erityisesti silloin, kun käyttäytymis- ja kohdepolitiikat eroavat merkittävästi toisistaan.

Varianssiongelman lieventämiseksi voidaan käyttää vakaampaa vaihtoehtoa: painotettu tärkeyspainotus. Tässä menetelmässä tärkeyspainot normalisoidaan, mikä vähentää suurten kertoimien vaikutusta ja johtaa vakaampaan oppimiseen:

q(s,a)=i=0N(s,a)ρi(s,a)Returnsi(s,a)i=0N(s,a)ρi(s,a)q(s, a) = \frac{\sum_{i=0}^{N(s, a)} \rho_i(s, a) \cdot Returns_i(s, a)}{\sum_{i=0}^{N(s, a)} \rho_i(s, a)}

Tässä versiossa osoittaja on sama painotettu tuottojen summa, mutta nimittäjä on nyt tärkeyspainotusten summa yksinkertaisen laskennan sijaan.

Tämä tekee arviosta harhaisen, mutta harha pienenee näytteiden määrän kasvaessa. Käytännössä painotettu tärkeyspainotus on suositeltavaa huomattavasti pienemmän varianssin ja paremman numeerisen vakauden vuoksi.

Politiikat

Kuten on-policy-tapauksessa, käytetään ε\varepsilon-ahneita politiikkoja sekä kohdepolitiikalle π(as)\pi(a | s) että käyttäytymispolitiikalle b(as)b(a | s).

Aluksi saattaa vaikuttaa luonnolliselta tehdä kohdepolitiikasta täysin ahne — onhan lopullinen tavoitteemme ahne politiikka. Käytännössä tämä kuitenkin aiheuttaa merkittävän ongelman: jos jossain vaiheessa π(as)=0\pi(a | s) = 0 sille toiminnolle, jonka käyttäytymispolitiikka todella valitsi, tärkeyden painotussuhde ρ\rho muuttuu nollaksi ja jakson loppuosa käytännössä hylätään.

Käyttämällä pientä ε\varepsilon-arvoa (esim. ε=0.01\varepsilon = 0.01) kohdepolitiikassa varmistetaan, että π(as)>0\pi(a | s) > 0 kaikille toiminnoille, joten ρ\rho ei koskaan romahda nollaan kesken jakson. Kun koulutus on valmis, opittu ε\varepsilon-ahne politiikka voidaan helposti muuntaa täysin ahneeksi. Kuten on-policy-oppimisessa, käyttäytymispolitiikassa tulisi käyttää laskevaa ε\varepsilon-arvoa, mutta tällä kertaa pääasiassa numeerisen vakauden vuoksi, sillä ρ\rho voi silti pudota nollaan kesken jakson, johtuen tietokoneiden lukujen esitystavasta.

Pseudokoodi

question mark

Mikä on tärkeyspainotuksen tarkoitus?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 4. Luku 6
some-alt