Kurssisisältö
Johdatus Vahvistusoppimiseen
Johdatus Vahvistusoppimiseen
On-Policy Monte Carlo -Ohjaus
On-policy-menetelmien perusajatus on intuitiivinen: agentti oppii seuraamalla nykyistä politiikkaansa ja parantaa sitä kokemustensa perusteella. Löytääkseen parempia toimintoja ja välttääkseen juuttumisen huonompiin ratkaisuihin agentti sisällyttää toimintaansa satunnaisuutta — se kokeilee ajoittain vaihtoehtoisia toimintoja edistääkseen tutkimista.
Vertauskuva
Kuvittele olevasi jäätelökioskilla, jossa on kolme makua: suklaa, vanilja ja mansikka. Rakastat suklaata, joten valitset yleensä sen. Eräänä päivänä päätät kuitenkin uteliaisuuttasi kokeilla mansikkaa. Käy ilmi, että tämän kioskin mansikkajäätelö on uskomattoman herkullista, ja päätät valita sen aina kun vierailet tässä kioskissa.
Uuden maun kokeileminen ei välttämättä ollut loogisin valinta aiempien kokemusten perusteella, mutta se antoi mahdollisuuden löytää jotain uutta. Juuri tällainen tutkiminen on on-policy-menetelmien ytimessä.
Stokastiset politiikat
Muodollisesti tämän ajatuksen omaksuminen tarkoittaa, että dynaamisessa ohjelmoinnissa käytetyt deterministiset (kovat) politiikat korvataan stokastisilla (pehmeillä) politiikoilla, joita merkitään muodossa , missä:
Toisin sanoen jokaisella toiminnolla jokaisessa tilassa on nollasta poikkeava todennäköisyys tulla valituksi. Tämä varmistaa, että kaikki ympäristön osat voidaan lopulta tutkia, mikä on olennaista opittaessa kokemuksesta.
-ahneet politiikat
Politiikkaan voidaan sisällyttää etsintää hyödyntämällä -ahnetta etsintää (engl. -greedy exploration), joka on peräisin moniaseisesta bandiittiongelmasta. Tämän avulla voidaan määritellä stokastinen politiikka, joka tasapainottaa parhaan tunnetun toiminnon hyödyntämisen ja vaihtoehtojen tutkimisen välillä:
Tämä politiikka toimii useimmiten ahneesti — valitsee toiminnon, jolla on korkein arvioitu arvo — mutta todennäköisyydellä se valitsee satunnaisen toiminnon, varmistaen, että kaikilla toiminnoilla on nollasta poikkeava mahdollisuus tulla valituksi (myös ahne toiminto voi tulla valituksi tasajakautuneesti).
Aluksi tämä lähestymistapa vaikuttaa ongelmalliselta: koska politiikka ei koskaan muutu täysin ahneeksi, se ei koskaan konvergoidu täsmälleen optimaaliseen politiikkaan. Näin ollen se ei tiukasti ottaen täytä GPI:n ehtoja, jos odotamme täsmällistä optimaalisuutta raja-arvossa.
Kuitenkin GPI ei vaadi, että politiikasta tulee heti optimaalinen — se edellyttää vain, että jokainen politiikka paranee (tai pysyy samana) edelliseen verrattuna, edeten asteittain kohti optimaalista. -ahnas politiikka täyttää tämän ehdon: se parantaa politiikkaa keskimäärin ja varmistaa jatkuvan etsinnän parempien arvioiden tueksi.
Jotta päästään lähemmäs aidosti optimaalista politiikkaa, voidaan vähentää asteittain ajan myötä. Tämä strategia mahdollistaa politiikan muuttumisen yhä ahneemmaksi oppimisen edetessä. Alkuvaiheessa etsintä auttaa keräämään monipuolista kokemusta, kun taas myöhemmissä vaiheissa agentti hyödyntää parantunutta tietämystään. Oikein pienenevällä -arvolla menetelmä konvergoituu optimaaliseen politiikkaan raja-arvossa.
Pseudokoodi
Kiitos palautteestasi!