Kurssisisältö
Johdatus Vahvistusoppimiseen
Johdatus Vahvistusoppimiseen
Monte Carlo -Ohjaus
Korvaamalla politiikan arviointi -vaihe perinteisessä politiikan iterointi -algoritmissa edellisessä luvussa esitetyillä Monte Carlo -arviointitekniikoilla, voidaan jo johtaa uusi variaatio politiikan iteroinnista—sellainen, joka perustuu otettuun kokemukseen dynaamisen ohjelmoinnin sijaan.
Tässä on kuitenkin olennainen rajoitus. Perinteisessä politiikan iteroinnissa politiikan parantaminen -vaihe edellyttää täydellistä mallia ympäristöstä. Tarkemmin sanottuna politiikkaa päivitetään seuraavalla lausekkeella:
Tämä yhtälö olettaa, että siirtymätodennäköisyydet tunnetaan. Mutta juuri tässä on ongelma: Monte Carlo -menetelmät on suunniteltu mallittomiin tilanteisiin, joissa ympäristön siirtymädynamiikka ei ole tiedossa. Jos täydellinen malli on käytettävissä, kannattaa käyttää dynaamista ohjelmointia myös politiikan arviointiin, koska se olisi tehokkaampaa ja tarkempaa.
Siksi, vaikka Monte Carlo -menetelmien käyttäminen arvon estimointiin on askel kohti mallivapaata vahvistusoppimista, täytyy myös löytää tapa suorittaa politiikan parantaminen ilman mallin tuntemusta. Tämä edellyttää siirtymistä tilan arvon funktiosta toiminnon arvon funktioon.
Miksi toimintojen arvot?
Käyttämällä toimintojen arvoja voidaan suorittaa politiikan parantaminen ilman ympäristön mallia. Siirtymätodennäköisyyksien sijaan odotettujen tuottojen laskemiseksi voidaan suoraan valita ne toiminnot, jotka näyttävät tuottavan korkeimman arvon. Politiikan parantaminen muotoillaan tällöin seuraavasti:
Ja ei ole vaikea todistaa, että uusi politiikka ei ole huonompi kuin vanha, sillä politiikan parantamisen lause pätee edelleen:
Ja kuten DP:ssä, tämä lause takaa, että joko on parempi kuin , tai ne ovat molemmat yhtä hyviä ja optimaalisia.
Toimintoarvofunktion estimointi
Arviointiprosessi on lähes identtinen tilaarvofunktion kanssa. Kaikkia tilaarvojen arvioinnissa käytettyjä ideoita voidaan hyödyntää myös toimintoarvojen arvioinnissa.
Pseudokoodi
Näin ollen, riittävällä määrällä iteraatioita, arvioidut toimintojen arvot lähestyvät todellisia toimintojen arvoja.
Tämän avulla voidaan jo rakentaa politiikan iterointia muistuttava menetelmä, joka ei perustu malliin. Tässä korvataan politiikan arviointi ja politiikan parantaminen yllä kuvatuilla prosesseilla.
Optimointi
Vaikka arviointivaihe voidaan suorittaa Monte Carlo -arvioinnilla kuten kuvattu, se on usein laskennallisesti tehotonta. Kuten olet jo nähnyt, Monte Carlo -menetelmät vaativat tyypillisesti suuren määrän otoksia tuottaakseen riittävän tarkkoja arvioita. Jos noudatetaan politiikan iterointia muistuttavaa rakennetta, tämä tehottomuus korostuu: jokaisen politiikan parannuksen jälkeen Monte Carlo -arviointi täytyy suorittaa uudelleen uuden politiikan arvioimiseksi — mikä aiheuttaa huomattavaa ylikuormitusta ja hidasta oppimista.
Luontevampi vaihtoehto on päivittää politiikka välittömästi jokaisen episodin käsittelyn jälkeen. Sen sijaan, että odotetaan koko politiikan arvioinnin valmistumista, annetaan agentin hienosäätää toimintaansa episodi kerrallaan käyttäen uusimpia toimintojen arviota.
Tämä johtaa menetelmään, joka muistuttaa enemmän arvoiterointia: arvioinnin ja parantamisen yhdistäminen yhdeksi askeleeksi. Tämä lisää otosten tehokkuutta ja nopeuttaa laskentaa.
Pseudokoodi
Tämä algoritmi noudattaa GPI-kehystä, sillä siinä on politiikan arviointi ja politiikan parantaminen -vaiheet, ja sitä kutsutaan nimellä Monte Carlo -kontrolli. Tämän tietyn toteutuksen suurin haittapuoli on oletus tutkivista aluista. Seuraavissa luvuissa näet, miksi tämä on ongelma ja miten siihen voidaan puuttua.
Kiitos palautteestasi!