Oppiskele Politiikan Arviointi | Dynaaminen Ohjelmointi

Määritelmä

Politiikan arviointi on prosessi, jossa määritetään annetun politiikan arvofunktio.

Huomio

Politiikan arviointia voidaan käyttää sekä tilan arvon funktion että toiminnon arvon funktion arvioimiseen. Dynaamisen ohjelmoinnin menetelmissä käytetään kuitenkin tilan arvon funktiota.

Kuten tiedät, annetun politiikan tilan arvon funktio voidaan määrittää ratkaisemalla Bellmanin yhtälö:

v_\pi(s) = \sum_a \pi(a | s) \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_\pi(s')\Bigr)

Jos sinulla on täydellinen malli ympäristöstä (eli tunnetut siirtymätodennäköisyydet ja odotetut palkkiot kaikille tila-toiminto -pareille), ainoat tuntemattomat muuttujat yhtälössä ovat tilojen arvot. Näin ollen yllä oleva yhtälö voidaan muotoilla järjestelmäksi, jossa on $|S|$ lineaarista yhtälöä ja $|S|$ tuntematonta.

Esimerkiksi, jos MDP:ssä on 2 tilaa ( $s_1$ , $s_2$ ) ja 2 toimintoa (siirry $s_1$ :een, siirry $s_2$ :een), tilan arvon funktio voidaan määritellä seuraavasti:

\begin{cases} V(s_1) = 0.5 \cdot (5 + 0.9 \cdot V(s_1)) + 0.5 \cdot (10 + 0.9 \cdot V(s_2)) \\ V(s_2) = 0.7 \cdot (2 + 0.9 \cdot V(s_1)) + 0.3 \cdot (0 + 0.9 \cdot V(s_2)) \end{cases}

Tämä voidaan ratkaista tavanomaisilla lineaarialgebran menetelmillä.

Yksikäsitteinen ratkaisu tällaiselle lineaariselle järjestelmälle taataan, jos vähintään yksi seuraavista ehdoista täyttyy:

Alennustekijä täyttää ehdon $γ < 1$ ;
Politiikka $\pi$ , jota noudatetaan mistä tahansa tilasta $s$ , varmistaa, että episodi päättyy lopulta.

Iteratiivinen politiikan arviointi

Ratkaisu voidaan laskea suoraan, mutta iteratiivista lähestymistapaa käytetään yleisemmin sen helpon toteutettavuuden vuoksi. Menetelmä alkaa asettamalla satunnaiset alkuarvot kaikille tiloille, paitsi päättäväisille tiloille, jotka asetetaan arvoon 0. Arvoja päivitetään tämän jälkeen iteratiivisesti käyttäen Bellmanin yhtälöä päivityssääntönä:

v_{k+1}(s) \gets \sum_a \pi(a | s) \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_k(s')\Bigr)

Arvioitu tilan arvon funktio $v_k$ lähestyy lopulta todellista tilan arvon funktiota $v_\pi$ , kun $k \to \infty$ , jos $v_\pi$ on olemassa.

Arvon varmistusstrategiat

Arvioita päivitettäessä uudet arviot lasketaan aiempien arvojen perusteella. Prosessia, jossa aiemmat arviot säilytetään, kutsutaan varmistukseksi. Varmistuksen suorittamiseen on kaksi yleistä strategiaa:

Täysi varmistus: tässä menetelmässä uudet arviot tallennetaan erilliseen taulukkoon, joka on eri kuin aiemmat (varmistetut) arvot sisältävä taulukko. Tämän vuoksi tarvitaan kaksi taulukkoa — toinen aiempien arvioiden ylläpitämiseen ja toinen uusien arvojen tallentamiseen;
Paikallinen varmistus: tässä lähestymistavassa kaikki arvot säilytetään yhdessä taulukossa. Jokainen uusi arvio korvaa välittömästi aiemman arvon. Tämä menetelmä vähentää muistinkäyttöä, koska tarvitaan vain yksi taulukko.

Yleensä paikallinen varmistus on suositeltava, koska se vaatii vähemmän muistia ja lähestyy ratkaisua nopeammin, sillä uusimpia arvioita hyödynnetään välittömästi.

Milloin lopettaa päivitys?

Iteratiivisessa politiikan arvioinnissa ei ole tarkkaa pistettä, jolloin algoritmin tulisi lopettaa. Vaikka konvergenssi on taattu ääriarvossa, laskennan jatkaminen tietyn pisteen jälkeen on tarpeetonta käytännössä. Yksinkertainen ja tehokas pysäytyskriteeri on seurata absoluuttista erotusta peräkkäisten arvoestimaattien välillä, $|v_{k+1}(s) - v_k(s)|$ , ja verrata sitä pieneen kynnysarvoon $\theta$ . Jos täyden päivityskierroksen (jolloin kaikkien tilojen arvot päivitetään) jälkeen mikään muutos ei ylitä $\theta$ :ta, prosessi voidaan turvallisesti lopettaa.

Pseudokoodi

Oliko kaikki selvää?

Kiitos palautteestasi!

Osio 3. Luku 4

Kysy tekoälyä

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Pyyhkäise näyttääksesi valikon