Oppiskele Arvofunktion Estimointi | Monte Carlo -Menetelmät

Aloitetaan tarkastelemalla uudelleen tuttua käsitettä: tilan arvofunktio, merkittynä $v_\pi(s)$ . Se voidaan määritellä seuraavasti:

\def\E{\operatorname{\mathbb{E}}} v_\pi(s) = \E_\pi [ G_t | S_t = s]

Tämän luvun tavoitteena on arvioida tämä funktio datasta, olettaen että käytössä on kiinteä politiikka $\pi$ , mutta ympäristön mallia ei ole saatavilla.

Monte Carlo -arviointi

Monte Carlo -menetelmät lähestyvät tätä arviointitehtävää näytteistämällä jaksoja kokemuksesta politiikalla $\pi$ ja käyttämällä näitä otoksia muodostamaan empiirisiä arvioita $v_\pi(s)$ :stä.

Yleisesti prosessi voidaan jakaa seuraaviin vaiheisiin:

Generoi jakso käyttäen politiikkaa $\pi$ ;
Tallenna saatu tuottoarvo jokaiselle jaksossa esiintyvälle tilalle;
Toista vaiheet 1-2 useita kertoja;
Laske uudet arvot ottamalla keskiarvo tuotoista jokaiselle tilalle.

Tuottojen kerääminen

Monte Carlo -arviointi arvotoiminnolle edellyttää tuottojen keräämistä generoituista episodeista. Näiden tuottojen laskemiseen voidaan käyttää kahta pääasiallista lähestymistapaa:

Ensimmäinen esiintymä: jokaisen tilan $s$ kohdalla episodissa huomioidaan vain tuotto, joka seuraa sen ensimmäistä esiintymää. Saman tilan myöhemmät esiintymät samassa episodissa jätetään huomiotta arvion kannalta;
Jokainen esiintymä: jokainen tilan $s$ esiintyminen episodissa otetaan huomioon. Eli tuotto jokaisen tilan vierailun jälkeen sisällytetään arvioon, vaikka tila esiintyisi useita kertoja samassa episodissa.

Aloitustilojen tutkiminen

Kuvittele yksinkertainen yksidimensionaalinen maailma, joka on esitetty viivana, joka ulottuu -10:stä +10:een. Agentti aloittaa kohdasta 0, ja sen nykyinen politiikka määrää, että se liikkuu aina oikealle jokaisella aikavälillä.

Jos yritämme tuottaa episodeja tämän politiikan mukaisesti, mitä tapahtuu? Agentti liikkuu jatkuvasti kohti viivan positiivista päätä — käyden tiloissa kuten 1, 2, 3 ja niin edelleen — mutta se ei koskaan vieraile negatiivisissa tiloissa. Tämän seurauksena emme voi arvioida arvofunktioita origon vasemmalla puolella oleville tiloille, koska agentti ei koskaan koe niitä.

Pääongelma on siis: jos tiettyjä tiloja ei koskaan tutkita, niiden arviot pysyvät epätarkkoina tai määrittelemättöminä. Yksi yleinen ratkaisu tähän ongelmaan on exploring starts -menetelmän käyttö.

Exploring starts -menetelmässä jokainen episodi ei ala kiinteästä aloitustilasta, kuten 0:sta, vaan satunnaisesti valitusta tilasta. Kun episodi alkaa, agentti seuraa nykyistä politiikkaansa normaalisti. Ajan myötä, aloittamalla monista eri kohdista tilassa, agentti pystyy vierailemaan kaikissa tiloissa — ei vain niissä, joihin sen politiikka luonnollisesti johtaisi. Tämä mahdollistaa Monte Carlo -menetelmän tuottaa tarkempia ja kattavampia arviota koko tilalle.

Pseudokoodi

Tämä pseudokoodi käyttää every-visit-lähestymistapaa yhdessä exploring starts -menetelmän kanssa.

1. Miten first-visit MC -menetelmä eroaa every-visit MC -menetelmästä?

2. Mikä on exploring starts -menetelmän tärkein etu Monte Carlo -menetelmissä?

Oliko kaikki selvää?

Kiitos palautteestasi!

Osio 4. Luku 2

Kysy tekoälyä

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Pyyhkäise näyttääksesi valikon