Oppiskele Monte Carlo -Ohjaus | Monte Carlo -Menetelmät

Korvaamalla politiikan arviointi -vaihe tavanomaisessa politiikan iterointi -algoritmissa edellisessä luvussa esitetyillä Monte Carlo -arviointitekniikoilla, voidaan johtaa uusi politiikan iteroinnin muunnelma—sellainen, joka perustuu otoskokemukseen dynaamisen ohjelmoinnin sijaan.

Tässä on kuitenkin olennainen rajoitus. Perinteisessä politiikan iteroinnissa politiikan parantaminen edellyttää täydellistä ympäristömallia. Tarkemmin sanottuna politiikkaa päivitetään seuraavan lausekkeen avulla:

\pi(s) \gets \argmax_a \sum_{s', r} \textcolor{red}{p(s', r | s, a)} \Bigl(r + \gamma v(s')\Bigr)

Tämä yhtälö olettaa, että siirtymätodennäköisyydet $p(s', r | s, a)$ tunnetaan. Mutta juuri tämä on ongelma: Monte Carlo -menetelmät on suunniteltu mallittomiin tilanteisiin, joissa ympäristön siirtymädynamiikka on tuntematon. Jos täydellinen malli on käytettävissä, kannattaa käyttää dynaamista ohjelmointia myös politiikan arviointiin, sillä se olisi tehokkaampaa ja tarkempaa.

Näin ollen, vaikka Monte Carlo -menetelmien käyttäminen arvon estimointiin on askel kohti mallivapaata vahvistusoppimista, täytyy myös löytää tapa suorittaa politiikan parantaminen ilman mallin tuntemusta. Tämä edellyttää siirtymistä tilan arvon funktiosta toiminnon arvon funktioon.

Miksi toimintojen arvot?

Käyttämällä toimintojen arvoja voidaan politiikan parantaminen suorittaa ilman ympäristön mallia. Siirtymätodennäköisyyksien sijaan odotettujen tuottojen laskemiseksi voidaan suoraan valita ne toiminnot, jotka näyttävät tuottavan suurimman arvon. Politiikan parantamisen vaihe on tällöin:

\pi(s) \gets \argmax_a q(s, a) \qquad \forall s \in S

Ja ei ole vaikea todistaa, että uusi politiikka ei ole huonompi kuin vanha, sillä politiikan parantamisen lause pätee edelleen:

\begin{aligned} q_{\pi_{k}}(s, \pi_{k+1}(s)) &= q_{\pi_k}(s, \argmax_a q_{\pi_k}(s, a))\\ &= \max_a q_{\pi_k}(s, a)\\ &\ge q_{\pi_k}(s, \pi_k(s))\\ &= v_{\pi_k}(s) \end{aligned}

Ja kuten DP:ssä, tämä lause takaa, että joko $\pi_{k+1}$ on parempi kuin $\pi_k$ , tai ne ovat molemmat yhtä hyviä ja optimaalisia.

Toimintoarvofunktion estimointi

Arviointiprosessi on lähes identtinen tilaarvofunktion kanssa. Kaikkia tilaarvojen arvioinnissa käytettyjä ideoita voidaan hyödyntää myös toimintoarvojen arvioinnissa.

Pseudokoodi

Näin ollen, riittävällä määrällä iteraatioita, arvioidut toimintojen arvot lähestyvät todellisia toimintojen arvoja.

Tämän avulla voidaan jo rakentaa politiikan iterointia muistuttava menetelmä, joka ei perustu malliin. Tätä varten korvataan politiikan arviointi ja politiikan parantaminen yllä kuvatuilla prosesseilla.

Optimointi

Vaikka arviointivaihe voidaan suorittaa Monte Carlo -arvioinnilla kuten kuvattu, se on usein laskennallisesti tehoton. Kuten on jo nähty, Monte Carlo -menetelmät vaativat tyypillisesti suuren määrän otoksia tuottaakseen riittävän tarkkoja arvioita. Jos noudatetaan politiikan iterointia muistuttavaa rakennetta, tämä tehottomuus korostuu: jokaisen politiikan parantamisen jälkeen Monte Carlo -arviointi täytyy suorittaa uudelleen uuden politiikan arvioimiseksi — mikä aiheuttaa huomattavaa ylikuormitusta ja hidasta oppimista.

Luontevampi vaihtoehto on päivittää politiikka välittömästi jokaisen episodin käsittelyn jälkeen. Sen sijaan, että odotettaisiin koko politiikan arvioinnin valmistumista, annetaan agentin hienosäätää toimintaansa episodi kerrallaan käyttäen uusimpia toimintojen arviota.

Tämä johtaa menetelmään, joka muistuttaa enemmän arvoiterointia: arvioinnin ja parantamisen yhdistäminen yhdeksi vaiheeksi. Tämä lisää otosten tehokkuutta ja nopeuttaa laskentaa.

Pseudokoodi

Tämä algoritmi noudattaa GPI-kehystä, koska siinä on politiikan arviointi ja politiikan parantaminen -vaiheet, ja sitä kutsutaan nimellä Monte Carlo -kontrolli. Tämän tietyn toteutuksen suurin haittapuoli on oletus exploring starts -periaatteesta. Seuraavissa luvuissa näet, miksi tämä on ongelma ja miten siihen voidaan puuttua.

Oliko kaikki selvää?

Kiitos palautteestasi!

Osio 4. Luku 3

Kysy tekoälyä

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Pyyhkäise näyttääksesi valikon

\pi(s) \gets \argmax_a \sum_{s', r} \textcolor{red}{p(s', r | s, a)} \Bigl(r + \gamma v(s')\Bigr)

Miksi toimintojen arvot?

\pi(s) \gets \argmax_a q(s, a) \qquad \forall s \in S

Ja ei ole vaikea todistaa, että uusi politiikka ei ole huonompi kuin vanha, sillä politiikan parantamisen lause pätee edelleen:

\begin{aligned} q_{\pi_{k}}(s, \pi_{k+1}(s)) &= q_{\pi_k}(s, \argmax_a q_{\pi_k}(s, a))\\ &= \max_a q_{\pi_k}(s, a)\\ &\ge q_{\pi_k}(s, \pi_k(s))\\ &= v_{\pi_k}(s) \end{aligned}

Ja kuten DP:ssä, tämä lause takaa, että joko $\pi_{k+1}$ on parempi kuin $\pi_k$ , tai ne ovat molemmat yhtä hyviä ja optimaalisia.

Toimintoarvofunktion estimointi

Arviointiprosessi on lähes identtinen tilaarvofunktion kanssa. Kaikkia tilaarvojen arvioinnissa käytettyjä ideoita voidaan hyödyntää myös toimintoarvojen arvioinnissa.

Pseudokoodi

Näin ollen, riittävällä määrällä iteraatioita, arvioidut toimintojen arvot lähestyvät todellisia toimintojen arvoja.

Optimointi

Tämä johtaa menetelmään, joka muistuttaa enemmän arvoiterointia: arvioinnin ja parantamisen yhdistäminen yhdeksi vaiheeksi. Tämä lisää otosten tehokkuutta ja nopeuttaa laskentaa.

Pseudokoodi

Oliko kaikki selvää?

Kiitos palautteestasi!

Osio 4. Luku 3