Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Arvofunktion Estimointi | Monte Carlo -Menetelmät
Johdatus Vahvistusoppimiseen
course content

Kurssisisältö

Johdatus Vahvistusoppimiseen

Johdatus Vahvistusoppimiseen

1. RL:n Ydinteoria
2. Moniaseinen Bandiittiongelma
3. Dynaaminen Ohjelmointi
4. Monte Carlo -Menetelmät
5. Aikaisen Eron Oppiminen

book
Arvofunktion Estimointi

Aloitetaan tarkastelemalla uudelleen tuttua käsitettä: tilan arvofunktio, joka merkitään muodossa vπ(s)v_\pi(s). Se voidaan määritellä seuraavasti:

vπ(s)=Eπ[GtSt=s]\def\E{\operatorname{\mathbb{E}}} v_\pi(s) = \E_\pi [ G_t | S_t = s]

Tämän luvun tavoitteena on arvioida tämä funktio datasta, olettaen että käytössämme on kiinteä politiikka π\pi, mutta emme tunne ympäristön mallia.

Monte Carlo -arviointi

Monte Carlo -menetelmät lähestyvät tätä arviointitehtävää näytteistämällä jaksoja politiikalla π\pi ja käyttämällä näitä otoksia muodostamaan empiirisiä arvioita vπ(s)v_\pi(s):stä.

Yleisesti prosessi voidaan jakaa seuraaviin vaiheisiin:

  1. Generoi jakso käyttäen politiikkaa π\pi;
  2. Tallenna saatu tuottoarvo jokaiselle jaksossa esiintyvälle tilalle;
  3. Toista vaiheet 1-2 useita kertoja;
  4. Laske uudet arvot ottamalla tilakohtainen tuottojen keskiarvo.

Tuottojen kerääminen

Monte Carlo -arviointi arvotoiminnolle edellyttää tuottojen keräämistä generoituista episodeista. Näiden tuottojen laskemiseen voidaan käyttää kahta pääasiallista lähestymistapaa:

  • Ensimmäinen esiintyminen: jokaisen tilan ss kohdalla episodissa huomioidaan vain tuotto, joka seuraa sen ensimmäistä esiintymistä. Saman tilan myöhemmät esiintymät samassa episodissa jätetään huomiotta arvion kannalta;
  • Jokainen esiintyminen: jokainen tilan ss esiintyminen episodissa otetaan huomioon. Eli tuotto jokaisen tilan vierailun jälkeen sisällytetään arvioon, vaikka tila esiintyisi useita kertoja samassa episodissa.

Aloitustilojen tutkiminen

Kuvittele yksinkertainen yksidimensionaalinen maailma, jota edustaa viiva, joka ulottuu -10:stä +10:een. Agentti aloittaa kohdasta 0, ja sen nykyinen politiikka määrää, että se liikkuu aina oikealle jokaisella aikavälillä.

Jos yritämme tuottaa episodeja tämän politiikan mukaisesti, mitä tapahtuu? Agentti liikkuu jatkuvasti kohti viivan positiivista päätä — käyden tiloissa kuten 1, 2, 3 ja niin edelleen — mutta se ei koskaan vieraile negatiivisissa tiloissa. Tämän seurauksena emme voi arvioida arvofunktioita origon vasemmalla puolella oleville tiloille, koska agentti ei koskaan koe niitä.

Pääongelma on siis: jos tiettyjä tiloja ei koskaan tutkita, niiden arviot pysyvät epätarkkoina tai määrittelemättöminä. Yksi yleinen ratkaisu tähän ongelmaan on exploring starts -menetelmän käyttö.

Exploring starts -menetelmässä jokainen episodi ei ala kiinteästä aloitustilasta, kuten 0:sta, vaan satunnaisesti valitusta tilasta. Kun episodi alkaa, agentti seuraa nykyistä politiikkaansa normaalisti. Ajan myötä, kun aloitustila vaihtelee eri puolilla tila-avaruuden aluetta, agentti pystyy vierailemaan kaikissa tiloissa — ei vain niissä, joihin sen politiikka luonnostaan johtaisi. Tämä mahdollistaa Monte Carlo -menetelmän tuottaa tarkempia ja kattavampia arviota koko tila-avaruudelle.

Pseudokoodi

Tämä pseudokoodi käyttää joka-käynti-lähestymistapaa yhdessä tutkivien aloitusten kanssa.

1. Miten ensimmäisen-käynnin MC-menetelmä eroaa joka-käynnin MC-menetelmästä?

2. Mikä on tutkivien aloitusten käytön tärkein etu Monte Carlo -menetelmissä?

question mark

Miten ensimmäisen-käynnin MC-menetelmä eroaa joka-käynnin MC-menetelmästä?

Select the correct answer

question mark

Mikä on tutkivien aloitusten käytön tärkein etu Monte Carlo -menetelmissä?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 4. Luku 2

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

course content

Kurssisisältö

Johdatus Vahvistusoppimiseen

Johdatus Vahvistusoppimiseen

1. RL:n Ydinteoria
2. Moniaseinen Bandiittiongelma
3. Dynaaminen Ohjelmointi
4. Monte Carlo -Menetelmät
5. Aikaisen Eron Oppiminen

book
Arvofunktion Estimointi

Aloitetaan tarkastelemalla uudelleen tuttua käsitettä: tilan arvofunktio, joka merkitään muodossa vπ(s)v_\pi(s). Se voidaan määritellä seuraavasti:

vπ(s)=Eπ[GtSt=s]\def\E{\operatorname{\mathbb{E}}} v_\pi(s) = \E_\pi [ G_t | S_t = s]

Tämän luvun tavoitteena on arvioida tämä funktio datasta, olettaen että käytössämme on kiinteä politiikka π\pi, mutta emme tunne ympäristön mallia.

Monte Carlo -arviointi

Monte Carlo -menetelmät lähestyvät tätä arviointitehtävää näytteistämällä jaksoja politiikalla π\pi ja käyttämällä näitä otoksia muodostamaan empiirisiä arvioita vπ(s)v_\pi(s):stä.

Yleisesti prosessi voidaan jakaa seuraaviin vaiheisiin:

  1. Generoi jakso käyttäen politiikkaa π\pi;
  2. Tallenna saatu tuottoarvo jokaiselle jaksossa esiintyvälle tilalle;
  3. Toista vaiheet 1-2 useita kertoja;
  4. Laske uudet arvot ottamalla tilakohtainen tuottojen keskiarvo.

Tuottojen kerääminen

Monte Carlo -arviointi arvotoiminnolle edellyttää tuottojen keräämistä generoituista episodeista. Näiden tuottojen laskemiseen voidaan käyttää kahta pääasiallista lähestymistapaa:

  • Ensimmäinen esiintyminen: jokaisen tilan ss kohdalla episodissa huomioidaan vain tuotto, joka seuraa sen ensimmäistä esiintymistä. Saman tilan myöhemmät esiintymät samassa episodissa jätetään huomiotta arvion kannalta;
  • Jokainen esiintyminen: jokainen tilan ss esiintyminen episodissa otetaan huomioon. Eli tuotto jokaisen tilan vierailun jälkeen sisällytetään arvioon, vaikka tila esiintyisi useita kertoja samassa episodissa.

Aloitustilojen tutkiminen

Kuvittele yksinkertainen yksidimensionaalinen maailma, jota edustaa viiva, joka ulottuu -10:stä +10:een. Agentti aloittaa kohdasta 0, ja sen nykyinen politiikka määrää, että se liikkuu aina oikealle jokaisella aikavälillä.

Jos yritämme tuottaa episodeja tämän politiikan mukaisesti, mitä tapahtuu? Agentti liikkuu jatkuvasti kohti viivan positiivista päätä — käyden tiloissa kuten 1, 2, 3 ja niin edelleen — mutta se ei koskaan vieraile negatiivisissa tiloissa. Tämän seurauksena emme voi arvioida arvofunktioita origon vasemmalla puolella oleville tiloille, koska agentti ei koskaan koe niitä.

Pääongelma on siis: jos tiettyjä tiloja ei koskaan tutkita, niiden arviot pysyvät epätarkkoina tai määrittelemättöminä. Yksi yleinen ratkaisu tähän ongelmaan on exploring starts -menetelmän käyttö.

Exploring starts -menetelmässä jokainen episodi ei ala kiinteästä aloitustilasta, kuten 0:sta, vaan satunnaisesti valitusta tilasta. Kun episodi alkaa, agentti seuraa nykyistä politiikkaansa normaalisti. Ajan myötä, kun aloitustila vaihtelee eri puolilla tila-avaruuden aluetta, agentti pystyy vierailemaan kaikissa tiloissa — ei vain niissä, joihin sen politiikka luonnostaan johtaisi. Tämä mahdollistaa Monte Carlo -menetelmän tuottaa tarkempia ja kattavampia arviota koko tila-avaruudelle.

Pseudokoodi

Tämä pseudokoodi käyttää joka-käynti-lähestymistapaa yhdessä tutkivien aloitusten kanssa.

1. Miten ensimmäisen-käynnin MC-menetelmä eroaa joka-käynnin MC-menetelmästä?

2. Mikä on tutkivien aloitusten käytön tärkein etu Monte Carlo -menetelmissä?

question mark

Miten ensimmäisen-käynnin MC-menetelmä eroaa joka-käynnin MC-menetelmästä?

Select the correct answer

question mark

Mikä on tutkivien aloitusten käytön tärkein etu Monte Carlo -menetelmissä?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 4. Luku 2
some-alt