Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Monte Carlo -Ohjaus | Monte Carlo -Menetelmät
Johdatus Vahvistusoppimiseen
course content

Kurssisisältö

Johdatus Vahvistusoppimiseen

Johdatus Vahvistusoppimiseen

1. RL:n Ydinteoria
2. Moniaseinen Bandiittiongelma
3. Dynaaminen Ohjelmointi
4. Monte Carlo -Menetelmät
5. Aikaisen Eron Oppiminen

book
Monte Carlo -Ohjaus

Korvaamalla politiikan arviointi -vaihe perinteisessä politiikan iterointi -algoritmissa edellisessä luvussa esitetyillä Monte Carlo -arviointitekniikoilla, voidaan jo johtaa uusi variaatio politiikan iteroinnista—sellainen, joka perustuu otettuun kokemukseen dynaamisen ohjelmoinnin sijaan.

Tässä on kuitenkin olennainen rajoitus. Perinteisessä politiikan iteroinnissa politiikan parantaminen -vaihe edellyttää täydellistä mallia ympäristöstä. Tarkemmin sanottuna politiikkaa päivitetään seuraavalla lausekkeella:

π(s)arg maxas,rp(s,rs,a)(r+γv(s))\pi(s) \gets \argmax_a \sum_{s', r} \textcolor{red}{p(s', r | s, a)} \Bigl(r + \gamma v(s')\Bigr)

Tämä yhtälö olettaa, että siirtymätodennäköisyydet p(s,rs,a)p(s', r | s, a) tunnetaan. Mutta juuri tässä on ongelma: Monte Carlo -menetelmät on suunniteltu mallittomiin tilanteisiin, joissa ympäristön siirtymädynamiikka ei ole tiedossa. Jos täydellinen malli on käytettävissä, kannattaa käyttää dynaamista ohjelmointia myös politiikan arviointiin, koska se olisi tehokkaampaa ja tarkempaa.

Siksi, vaikka Monte Carlo -menetelmien käyttäminen arvon estimointiin on askel kohti mallivapaata vahvistusoppimista, täytyy myös löytää tapa suorittaa politiikan parantaminen ilman mallin tuntemusta. Tämä edellyttää siirtymistä tilan arvon funktiosta toiminnon arvon funktioon.

Miksi toimintojen arvot?

Käyttämällä toimintojen arvoja voidaan suorittaa politiikan parantaminen ilman ympäristön mallia. Siirtymätodennäköisyyksien sijaan odotettujen tuottojen laskemiseksi voidaan suoraan valita ne toiminnot, jotka näyttävät tuottavan korkeimman arvon. Politiikan parantaminen muotoillaan tällöin seuraavasti:

π(s)arg maxaq(s,a)sS\pi(s) \gets \argmax_a q(s, a) \qquad \forall s \in S

Ja ei ole vaikea todistaa, että uusi politiikka ei ole huonompi kuin vanha, sillä politiikan parantamisen lause pätee edelleen:

qπk(s,πk+1(s))=qπk(s,arg maxaqπk(s,a))=maxaqπk(s,a)qπk(s,πk(s))=vπk(s)\begin{aligned} q_{\pi_{k}}(s, \pi_{k+1}(s)) &= q_{\pi_k}(s, \argmax_a q_{\pi_k}(s, a))\\ &= \max_a q_{\pi_k}(s, a)\\ &\ge q_{\pi_k}(s, \pi_k(s))\\ &= v_{\pi_k}(s) \end{aligned}

Ja kuten DP:ssä, tämä lause takaa, että joko πk+1\pi_{k+1} on parempi kuin πk\pi_k, tai ne ovat molemmat yhtä hyviä ja optimaalisia.

Toimintoarvofunktion estimointi

Arviointiprosessi on lähes identtinen tilaarvofunktion kanssa. Kaikkia tilaarvojen arvioinnissa käytettyjä ideoita voidaan hyödyntää myös toimintoarvojen arvioinnissa.

Pseudokoodi

Näin ollen, riittävällä määrällä iteraatioita, arvioidut toimintojen arvot lähestyvät todellisia toimintojen arvoja.

Tämän avulla voidaan jo rakentaa politiikan iterointia muistuttava menetelmä, joka ei perustu malliin. Tässä korvataan politiikan arviointi ja politiikan parantaminen yllä kuvatuilla prosesseilla.

Optimointi

Vaikka arviointivaihe voidaan suorittaa Monte Carlo -arvioinnilla kuten kuvattu, se on usein laskennallisesti tehotonta. Kuten olet jo nähnyt, Monte Carlo -menetelmät vaativat tyypillisesti suuren määrän otoksia tuottaakseen riittävän tarkkoja arvioita. Jos noudatetaan politiikan iterointia muistuttavaa rakennetta, tämä tehottomuus korostuu: jokaisen politiikan parannuksen jälkeen Monte Carlo -arviointi täytyy suorittaa uudelleen uuden politiikan arvioimiseksi — mikä aiheuttaa huomattavaa ylikuormitusta ja hidasta oppimista.

Luontevampi vaihtoehto on päivittää politiikka välittömästi jokaisen episodin käsittelyn jälkeen. Sen sijaan, että odotetaan koko politiikan arvioinnin valmistumista, annetaan agentin hienosäätää toimintaansa episodi kerrallaan käyttäen uusimpia toimintojen arviota.

Tämä johtaa menetelmään, joka muistuttaa enemmän arvoiterointia: arvioinnin ja parantamisen yhdistäminen yhdeksi askeleeksi. Tämä lisää otosten tehokkuutta ja nopeuttaa laskentaa.

Pseudokoodi

Tämä algoritmi noudattaa GPI-kehystä, sillä siinä on politiikan arviointi ja politiikan parantaminen -vaiheet, ja sitä kutsutaan nimellä Monte Carlo -kontrolli. Tämän tietyn toteutuksen suurin haittapuoli on oletus tutkivista aluista. Seuraavissa luvuissa näet, miksi tämä on ongelma ja miten siihen voidaan puuttua.

question mark

Mikä on tärkein etu toimintojen arvojen käyttämisessä tilojen arvojen sijaan Monte Carlo -kontrollissa?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 4. Luku 3

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

course content

Kurssisisältö

Johdatus Vahvistusoppimiseen

Johdatus Vahvistusoppimiseen

1. RL:n Ydinteoria
2. Moniaseinen Bandiittiongelma
3. Dynaaminen Ohjelmointi
4. Monte Carlo -Menetelmät
5. Aikaisen Eron Oppiminen

book
Monte Carlo -Ohjaus

Korvaamalla politiikan arviointi -vaihe perinteisessä politiikan iterointi -algoritmissa edellisessä luvussa esitetyillä Monte Carlo -arviointitekniikoilla, voidaan jo johtaa uusi variaatio politiikan iteroinnista—sellainen, joka perustuu otettuun kokemukseen dynaamisen ohjelmoinnin sijaan.

Tässä on kuitenkin olennainen rajoitus. Perinteisessä politiikan iteroinnissa politiikan parantaminen -vaihe edellyttää täydellistä mallia ympäristöstä. Tarkemmin sanottuna politiikkaa päivitetään seuraavalla lausekkeella:

π(s)arg maxas,rp(s,rs,a)(r+γv(s))\pi(s) \gets \argmax_a \sum_{s', r} \textcolor{red}{p(s', r | s, a)} \Bigl(r + \gamma v(s')\Bigr)

Tämä yhtälö olettaa, että siirtymätodennäköisyydet p(s,rs,a)p(s', r | s, a) tunnetaan. Mutta juuri tässä on ongelma: Monte Carlo -menetelmät on suunniteltu mallittomiin tilanteisiin, joissa ympäristön siirtymädynamiikka ei ole tiedossa. Jos täydellinen malli on käytettävissä, kannattaa käyttää dynaamista ohjelmointia myös politiikan arviointiin, koska se olisi tehokkaampaa ja tarkempaa.

Siksi, vaikka Monte Carlo -menetelmien käyttäminen arvon estimointiin on askel kohti mallivapaata vahvistusoppimista, täytyy myös löytää tapa suorittaa politiikan parantaminen ilman mallin tuntemusta. Tämä edellyttää siirtymistä tilan arvon funktiosta toiminnon arvon funktioon.

Miksi toimintojen arvot?

Käyttämällä toimintojen arvoja voidaan suorittaa politiikan parantaminen ilman ympäristön mallia. Siirtymätodennäköisyyksien sijaan odotettujen tuottojen laskemiseksi voidaan suoraan valita ne toiminnot, jotka näyttävät tuottavan korkeimman arvon. Politiikan parantaminen muotoillaan tällöin seuraavasti:

π(s)arg maxaq(s,a)sS\pi(s) \gets \argmax_a q(s, a) \qquad \forall s \in S

Ja ei ole vaikea todistaa, että uusi politiikka ei ole huonompi kuin vanha, sillä politiikan parantamisen lause pätee edelleen:

qπk(s,πk+1(s))=qπk(s,arg maxaqπk(s,a))=maxaqπk(s,a)qπk(s,πk(s))=vπk(s)\begin{aligned} q_{\pi_{k}}(s, \pi_{k+1}(s)) &= q_{\pi_k}(s, \argmax_a q_{\pi_k}(s, a))\\ &= \max_a q_{\pi_k}(s, a)\\ &\ge q_{\pi_k}(s, \pi_k(s))\\ &= v_{\pi_k}(s) \end{aligned}

Ja kuten DP:ssä, tämä lause takaa, että joko πk+1\pi_{k+1} on parempi kuin πk\pi_k, tai ne ovat molemmat yhtä hyviä ja optimaalisia.

Toimintoarvofunktion estimointi

Arviointiprosessi on lähes identtinen tilaarvofunktion kanssa. Kaikkia tilaarvojen arvioinnissa käytettyjä ideoita voidaan hyödyntää myös toimintoarvojen arvioinnissa.

Pseudokoodi

Näin ollen, riittävällä määrällä iteraatioita, arvioidut toimintojen arvot lähestyvät todellisia toimintojen arvoja.

Tämän avulla voidaan jo rakentaa politiikan iterointia muistuttava menetelmä, joka ei perustu malliin. Tässä korvataan politiikan arviointi ja politiikan parantaminen yllä kuvatuilla prosesseilla.

Optimointi

Vaikka arviointivaihe voidaan suorittaa Monte Carlo -arvioinnilla kuten kuvattu, se on usein laskennallisesti tehotonta. Kuten olet jo nähnyt, Monte Carlo -menetelmät vaativat tyypillisesti suuren määrän otoksia tuottaakseen riittävän tarkkoja arvioita. Jos noudatetaan politiikan iterointia muistuttavaa rakennetta, tämä tehottomuus korostuu: jokaisen politiikan parannuksen jälkeen Monte Carlo -arviointi täytyy suorittaa uudelleen uuden politiikan arvioimiseksi — mikä aiheuttaa huomattavaa ylikuormitusta ja hidasta oppimista.

Luontevampi vaihtoehto on päivittää politiikka välittömästi jokaisen episodin käsittelyn jälkeen. Sen sijaan, että odotetaan koko politiikan arvioinnin valmistumista, annetaan agentin hienosäätää toimintaansa episodi kerrallaan käyttäen uusimpia toimintojen arviota.

Tämä johtaa menetelmään, joka muistuttaa enemmän arvoiterointia: arvioinnin ja parantamisen yhdistäminen yhdeksi askeleeksi. Tämä lisää otosten tehokkuutta ja nopeuttaa laskentaa.

Pseudokoodi

Tämä algoritmi noudattaa GPI-kehystä, sillä siinä on politiikan arviointi ja politiikan parantaminen -vaiheet, ja sitä kutsutaan nimellä Monte Carlo -kontrolli. Tämän tietyn toteutuksen suurin haittapuoli on oletus tutkivista aluista. Seuraavissa luvuissa näet, miksi tämä on ongelma ja miten siihen voidaan puuttua.

question mark

Mikä on tärkein etu toimintojen arvojen käyttämisessä tilojen arvojen sijaan Monte Carlo -kontrollissa?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 4. Luku 3
some-alt