Kurssisisältö
Johdatus Vahvistusoppimiseen
Johdatus Vahvistusoppimiseen
Off-Policy Monte Carlo -ohjaus
Siinä missä on-policy-menetelmät oppivat seuraamalla ja parantamalla samaa politiikkaa, off-policy-menetelmät tuovat mukanaan uuden näkökulman: ne oppivat yhdestä politiikasta (kohdepolitiikka) samalla kun ne seuraavat toista (käyttäytymispolitiikka). Tämä erottelu on tehokas — se mahdollistaa kohdepolitiikan arvioinnin tai parantamisen ilman, että sitä tarvitsee varsinaisesti noudattaa tiedonkeruun aikana.
Vertauskuva
Palataanpa jäätelökauppaan edellisestä luvusta. Sinä ja ystäväsi astutte sisään, ja jälleen tarjolla on kolme tuttua makua: suklaa, vanilja ja mansikka. Suklaa on oma suosikkisi, ja ensimmäinen ajatuksesi on tilata sitä. Mutta tämä kauppa on sinulle uusi, etkä ole aivan varma, onko suklaan valinta oikea. Onneksi ystäväsi on tunnettu jäätelön ystävä, joka on vieraillut lähes kaikissa kaupungin jäätelöbaareissa. Kysyt hänen mielipidettään. "Suklaa täällä on ihan ok," hän sanoo, "mutta usko pois — mansikka on poikkeuksellisen hyvää." Niinpä päätät hänen kokemuksensa perusteella jättää tavanomaisen valintasi väliin ja valita mansikan.
Tämä päätös — luottaa jonkun toisen kokemukseen oman valinnan ohjaamiseksi — on off-policy-menetelmien ydin. Pyrit parantamaan päätöksentekoasi käyttämällä dataa, joka on kerätty jonkun toisen käyttäytymisen perusteella. Kyseessä on yhä tutkiminen — mutta sitä ohjaa ulkoinen kokemus oman sijaan.
Tärkeyspainotus
Koska agentti seuraa käyttäytymispolitiikkaa jaksojen luomisen aikana, meidän täytyy huomioida ero, joka syntyy siitä, mitä käyttäytymispolitiikka tuottaa ja mitä kohdepolitiikka tuottaisi. Tässä kohtaa tärkeyspainotus astuu kuvaan.
Tärkeyspainotus (importance sampling) tarjoaa keinon säätää käyttäytymispolitiikan (behavior policy) tuottamia tuottoja niin, että ne ovat kelvollisia arvioita kohdepolitiikalle (target policy).
Tarkastellaan polkua, joka alkaa tietyssä tilassa ja seuraa tiettyä politiikkaa , kunnes episodi päättyy ajanhetkellä . Erityisesti havainnoimme:
Mikä on tämän polun todennäköisyys politiikan alla? Se riippuu sekä politiikan toimintatodennäköisyyksistä että ympäristön siirtymädynamiikasta:
Oletetaan nyt, että polku onkin itse asiassa tuotettu eri politiikalla — käyttäytymispolitiikalla . Jotta voimme käyttää tätä polkua odotusarvojen arvioimiseen kohdepolitiikalle , meidän täytyy huomioida, kuinka paljon todennäköisempi tai epätodennäköisempi tämä toimintojen sarja olisi ollut :n alla verrattuna :hen.
Tässä kohtaa tärkeyspainotussuhde tulee mukaan. Se määritellään polun suhteellisena todennäköisyytenä kahden politiikan alla:
Lopulta siirtymätodennäköisyydet kumoutuivat, koska molemmat politiikat toimivat samassa ympäristössä, ja :n arvo riippuu ainoastaan politiikoista, ei ympäristöstä.
Miksi tämä on tärkeää
Suhde kertoo, miten käyttäytymispolitiikalla havaittu tuotto painotetaan, jotta siitä tulee harhaton arvio siitä, millainen tuotto olisi ollut kohdepolitiikalla:
Toisin sanoen, vaikka data kerättiin politiikalla , voimme silti arvioida odotetut tuotot politiikalla — edellyttäen, että antaa nollasta poikkeavan todennäköisyyden jokaiselle toiminnolle, jonka voi valita (peittävyysoletus, assumption of coverage).
Käytännön näkökohdat
Tärkeyspainotuksen varianssi
Tärkeyspainotuksen (importance sampling) sisällyttäminen on käsitteellisesti suoraviivaista. Arvioitua toimintojen arvofunktiota säädetään painottamalla jokaista havaittua tuottoa vastaavalla tärkeyspainotuksen kertoimella. Yksinkertaisin muotoilu näyttää tältä:
missä:
- on tärkeyspainotuksen kerroin :nnessä trajektoriassa alkaen tilasta ;
- on kyseisen trajektorian tuotto;
- on tilan vierailukertojen määrä.
Tätä kutsutaan tavalliseksi tärkeyspainotukseksi (ordinary importance sampling). Se antaa harhattoman arvion :sta, mutta voi kärsiä hyvin suuresta varianssista, erityisesti silloin kun käyttäytymis- ja kohdepolitiikat eroavat merkittävästi toisistaan.
Varianssiongelman lieventämiseksi voidaan käyttää vakaampaa vaihtoehtoa: painotettu tärkeyspainotus (weighted importance sampling). Tässä menetelmässä tärkeyspainot normalisoidaan, mikä vähentää suurten kertoimien vaikutusta ja johtaa vakaampaan oppimiseen:
Tässä versiossa osoittaja on sama painotettu tuottojen summa, mutta nimittäjä on nyt tärkeyspainotusten summa yksinkertaisen laskennan sijaan.
Tämä tekee arviosta harhaisen, mutta harha pienenee näytteiden määrän kasvaessa. Käytännössä painotettu tärkeyspainotus on suositeltavaa sen huomattavasti pienemmän varianssin ja paremman numeerisen vakauden vuoksi.
Politiikat
Kuten on-policy-tapauksessa, käytetään -ahneita politiikkoja sekä kohdepolitiikalle että käyttäytymispolitiikalle .
Ensisilmäyksellä vaikuttaa luonnolliselta tehdä kohdepolitiikasta täysin ahne — onhan lopullinen tavoitteemme ahne politiikka. Käytännössä tämä aiheuttaa kuitenkin merkittävän ongelman: jos jossain vaiheessa toiminnolle, jonka käyttäytymispolitiikka todella valitsi, tärkeyden painotussuhde muuttuu nollaksi ja jakson loppuosa jätetään käytännössä huomiotta.
Käyttämällä pientä -arvoa (esim. ) kohdepolitiikassa varmistetaan, että kaikille toiminnoille, joten ei koskaan romahda nollaan kesken jakson. Kun koulutus on valmis, opittu -ahne politiikka voidaan helposti muuntaa täysin ahneeksi. Kuten on-policy-oppimisessa, käyttäytymispolitiikassa tulisi käyttää laskevaa -arvoa, mutta tällä kertaa pääasiassa numeerisen vakauden vuoksi, sillä voi silti pudota nollaan kesken jakson, koska tietokoneet esittävät lukuja tietyllä tavalla.
Pseudokoodi
Kiitos palautteestasi!