Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Arvofunktion Estimointi | Monte Carlo -Menetelmät
Vahvistusoppimisen Perusteet

bookArvofunktion Estimointi

Aloitetaan tarkastelemalla uudelleen tuttua käsitettä: tilan arvofunktio, merkittynä vπ(s)v_\pi(s). Se voidaan määritellä seuraavasti:

vπ(s)=Eπ[GtSt=s]\def\E{\operatorname{\mathbb{E}}} v_\pi(s) = \E_\pi [ G_t | S_t = s]

Tämän luvun tavoitteena on arvioida tämä funktio datasta, olettaen että käytössä on kiinteä politiikka π\pi, mutta ympäristön mallia ei ole saatavilla.

Monte Carlo -arviointi

Monte Carlo -menetelmät lähestyvät tätä arviointitehtävää näytteistämällä jaksoja kokemuksesta politiikalla π\pi ja käyttämällä näitä otoksia muodostamaan empiirisiä arvioita vπ(s)v_\pi(s):stä.

Yleisesti prosessi voidaan jakaa seuraaviin vaiheisiin:

  1. Generoi jakso käyttäen politiikkaa π\pi;
  2. Tallenna saatu tuottoarvo jokaiselle jaksossa esiintyvälle tilalle;
  3. Toista vaiheet 1-2 useita kertoja;
  4. Laske uudet arvot ottamalla keskiarvo tuotoista jokaiselle tilalle.

Tuottojen kerääminen

Monte Carlo -arviointi arvotoiminnolle edellyttää tuottojen keräämistä generoituista episodeista. Näiden tuottojen laskemiseen voidaan käyttää kahta pääasiallista lähestymistapaa:

  • Ensimmäinen esiintymä: jokaisen tilan ss kohdalla episodissa huomioidaan vain tuotto, joka seuraa sen ensimmäistä esiintymää. Saman tilan myöhemmät esiintymät samassa episodissa jätetään huomiotta arvion kannalta;
  • Jokainen esiintymä: jokainen tilan ss esiintyminen episodissa otetaan huomioon. Eli tuotto jokaisen tilan vierailun jälkeen sisällytetään arvioon, vaikka tila esiintyisi useita kertoja samassa episodissa.

Aloitustilojen tutkiminen

Kuvittele yksinkertainen yksidimensionaalinen maailma, joka on esitetty viivana, joka ulottuu -10:stä +10:een. Agentti aloittaa kohdasta 0, ja sen nykyinen politiikka määrää, että se liikkuu aina oikealle jokaisella aikavälillä.

Jos yritämme tuottaa episodeja tämän politiikan mukaisesti, mitä tapahtuu? Agentti liikkuu jatkuvasti kohti viivan positiivista päätä — käyden tiloissa kuten 1, 2, 3 ja niin edelleen — mutta se ei koskaan vieraile negatiivisissa tiloissa. Tämän seurauksena emme voi arvioida arvofunktioita origon vasemmalla puolella oleville tiloille, koska agentti ei koskaan koe niitä.

Pääongelma on siis: jos tiettyjä tiloja ei koskaan tutkita, niiden arviot pysyvät epätarkkoina tai määrittelemättöminä. Yksi yleinen ratkaisu tähän ongelmaan on exploring starts -menetelmän käyttö.

Exploring starts -menetelmässä jokainen episodi ei ala kiinteästä aloitustilasta, kuten 0:sta, vaan satunnaisesti valitusta tilasta. Kun episodi alkaa, agentti seuraa nykyistä politiikkaansa normaalisti. Ajan myötä, aloittamalla monista eri kohdista tilassa, agentti pystyy vierailemaan kaikissa tiloissa — ei vain niissä, joihin sen politiikka luonnollisesti johtaisi. Tämä mahdollistaa Monte Carlo -menetelmän tuottaa tarkempia ja kattavampia arviota koko tilalle.

Pseudokoodi

Tämä pseudokoodi käyttää every-visit-lähestymistapaa yhdessä exploring starts -menetelmän kanssa.

1. Miten first-visit MC -menetelmä eroaa every-visit MC -menetelmästä?

2. Mikä on exploring starts -menetelmän tärkein etu Monte Carlo -menetelmissä?

question mark

Miten first-visit MC -menetelmä eroaa every-visit MC -menetelmästä?

Select the correct answer

question mark

Mikä on exploring starts -menetelmän tärkein etu Monte Carlo -menetelmissä?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 4. Luku 2

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Suggested prompts:

Can you explain the difference between first-visit and every-visit Monte Carlo methods?

How does exploring starts improve the estimation of the value function?

Can you walk me through the pseudocode for Monte Carlo state value estimation?

Awesome!

Completion rate improved to 2.7

bookArvofunktion Estimointi

Pyyhkäise näyttääksesi valikon

Aloitetaan tarkastelemalla uudelleen tuttua käsitettä: tilan arvofunktio, merkittynä vπ(s)v_\pi(s). Se voidaan määritellä seuraavasti:

vπ(s)=Eπ[GtSt=s]\def\E{\operatorname{\mathbb{E}}} v_\pi(s) = \E_\pi [ G_t | S_t = s]

Tämän luvun tavoitteena on arvioida tämä funktio datasta, olettaen että käytössä on kiinteä politiikka π\pi, mutta ympäristön mallia ei ole saatavilla.

Monte Carlo -arviointi

Monte Carlo -menetelmät lähestyvät tätä arviointitehtävää näytteistämällä jaksoja kokemuksesta politiikalla π\pi ja käyttämällä näitä otoksia muodostamaan empiirisiä arvioita vπ(s)v_\pi(s):stä.

Yleisesti prosessi voidaan jakaa seuraaviin vaiheisiin:

  1. Generoi jakso käyttäen politiikkaa π\pi;
  2. Tallenna saatu tuottoarvo jokaiselle jaksossa esiintyvälle tilalle;
  3. Toista vaiheet 1-2 useita kertoja;
  4. Laske uudet arvot ottamalla keskiarvo tuotoista jokaiselle tilalle.

Tuottojen kerääminen

Monte Carlo -arviointi arvotoiminnolle edellyttää tuottojen keräämistä generoituista episodeista. Näiden tuottojen laskemiseen voidaan käyttää kahta pääasiallista lähestymistapaa:

  • Ensimmäinen esiintymä: jokaisen tilan ss kohdalla episodissa huomioidaan vain tuotto, joka seuraa sen ensimmäistä esiintymää. Saman tilan myöhemmät esiintymät samassa episodissa jätetään huomiotta arvion kannalta;
  • Jokainen esiintymä: jokainen tilan ss esiintyminen episodissa otetaan huomioon. Eli tuotto jokaisen tilan vierailun jälkeen sisällytetään arvioon, vaikka tila esiintyisi useita kertoja samassa episodissa.

Aloitustilojen tutkiminen

Kuvittele yksinkertainen yksidimensionaalinen maailma, joka on esitetty viivana, joka ulottuu -10:stä +10:een. Agentti aloittaa kohdasta 0, ja sen nykyinen politiikka määrää, että se liikkuu aina oikealle jokaisella aikavälillä.

Jos yritämme tuottaa episodeja tämän politiikan mukaisesti, mitä tapahtuu? Agentti liikkuu jatkuvasti kohti viivan positiivista päätä — käyden tiloissa kuten 1, 2, 3 ja niin edelleen — mutta se ei koskaan vieraile negatiivisissa tiloissa. Tämän seurauksena emme voi arvioida arvofunktioita origon vasemmalla puolella oleville tiloille, koska agentti ei koskaan koe niitä.

Pääongelma on siis: jos tiettyjä tiloja ei koskaan tutkita, niiden arviot pysyvät epätarkkoina tai määrittelemättöminä. Yksi yleinen ratkaisu tähän ongelmaan on exploring starts -menetelmän käyttö.

Exploring starts -menetelmässä jokainen episodi ei ala kiinteästä aloitustilasta, kuten 0:sta, vaan satunnaisesti valitusta tilasta. Kun episodi alkaa, agentti seuraa nykyistä politiikkaansa normaalisti. Ajan myötä, aloittamalla monista eri kohdista tilassa, agentti pystyy vierailemaan kaikissa tiloissa — ei vain niissä, joihin sen politiikka luonnollisesti johtaisi. Tämä mahdollistaa Monte Carlo -menetelmän tuottaa tarkempia ja kattavampia arviota koko tilalle.

Pseudokoodi

Tämä pseudokoodi käyttää every-visit-lähestymistapaa yhdessä exploring starts -menetelmän kanssa.

1. Miten first-visit MC -menetelmä eroaa every-visit MC -menetelmästä?

2. Mikä on exploring starts -menetelmän tärkein etu Monte Carlo -menetelmissä?

question mark

Miten first-visit MC -menetelmä eroaa every-visit MC -menetelmästä?

Select the correct answer

question mark

Mikä on exploring starts -menetelmän tärkein etu Monte Carlo -menetelmissä?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 4. Luku 2
some-alt