Kurssisisältö
Johdatus Vahvistusoppimiseen
Johdatus Vahvistusoppimiseen
Arvofunktion Estimointi
Aloitetaan tarkastelemalla uudelleen tuttua käsitettä: tilan arvofunktio, joka merkitään muodossa . Se voidaan määritellä seuraavasti:
Tämän luvun tavoitteena on arvioida tämä funktio datasta, olettaen että käytössämme on kiinteä politiikka , mutta emme tunne ympäristön mallia.
Monte Carlo -arviointi
Monte Carlo -menetelmät lähestyvät tätä arviointitehtävää näytteistämällä jaksoja politiikalla ja käyttämällä näitä otoksia muodostamaan empiirisiä arvioita :stä.
Yleisesti prosessi voidaan jakaa seuraaviin vaiheisiin:
- Generoi jakso käyttäen politiikkaa ;
- Tallenna saatu tuottoarvo jokaiselle jaksossa esiintyvälle tilalle;
- Toista vaiheet 1-2 useita kertoja;
- Laske uudet arvot ottamalla tilakohtainen tuottojen keskiarvo.
Tuottojen kerääminen
Monte Carlo -arviointi arvotoiminnolle edellyttää tuottojen keräämistä generoituista episodeista. Näiden tuottojen laskemiseen voidaan käyttää kahta pääasiallista lähestymistapaa:
- Ensimmäinen esiintyminen: jokaisen tilan kohdalla episodissa huomioidaan vain tuotto, joka seuraa sen ensimmäistä esiintymistä. Saman tilan myöhemmät esiintymät samassa episodissa jätetään huomiotta arvion kannalta;
- Jokainen esiintyminen: jokainen tilan esiintyminen episodissa otetaan huomioon. Eli tuotto jokaisen tilan vierailun jälkeen sisällytetään arvioon, vaikka tila esiintyisi useita kertoja samassa episodissa.
Aloitustilojen tutkiminen
Kuvittele yksinkertainen yksidimensionaalinen maailma, jota edustaa viiva, joka ulottuu -10:stä +10:een. Agentti aloittaa kohdasta 0, ja sen nykyinen politiikka määrää, että se liikkuu aina oikealle jokaisella aikavälillä.
Jos yritämme tuottaa episodeja tämän politiikan mukaisesti, mitä tapahtuu? Agentti liikkuu jatkuvasti kohti viivan positiivista päätä — käyden tiloissa kuten 1, 2, 3 ja niin edelleen — mutta se ei koskaan vieraile negatiivisissa tiloissa. Tämän seurauksena emme voi arvioida arvofunktioita origon vasemmalla puolella oleville tiloille, koska agentti ei koskaan koe niitä.
Pääongelma on siis: jos tiettyjä tiloja ei koskaan tutkita, niiden arviot pysyvät epätarkkoina tai määrittelemättöminä. Yksi yleinen ratkaisu tähän ongelmaan on exploring starts -menetelmän käyttö.
Exploring starts -menetelmässä jokainen episodi ei ala kiinteästä aloitustilasta, kuten 0:sta, vaan satunnaisesti valitusta tilasta. Kun episodi alkaa, agentti seuraa nykyistä politiikkaansa normaalisti. Ajan myötä, kun aloitustila vaihtelee eri puolilla tila-avaruuden aluetta, agentti pystyy vierailemaan kaikissa tiloissa — ei vain niissä, joihin sen politiikka luonnostaan johtaisi. Tämä mahdollistaa Monte Carlo -menetelmän tuottaa tarkempia ja kattavampia arviota koko tila-avaruudelle.
Pseudokoodi
Tämä pseudokoodi käyttää joka-käynti-lähestymistapaa yhdessä tutkivien aloitusten kanssa.
1. Miten ensimmäisen-käynnin MC-menetelmä eroaa joka-käynnin MC-menetelmästä?
2. Mikä on tutkivien aloitusten käytön tärkein etu Monte Carlo -menetelmissä?
Kiitos palautteestasi!