Oppiskele Politiikan Parantaminen | Dynaaminen Ohjelmointi

Määritelmä

Politiikan parantaminen on prosessi, jossa politiikkaa kehitetään nykyisten arvofunktioestimaattien perusteella.

Huomio

Kuten politiikan arvioinnissa, politiikan parantaminen voi hyödyntää sekä tilan arvofunktiota että toiminnon arvofunktiota. Dynaamisen ohjelmoinnin menetelmissä käytetään kuitenkin tilan arvofunktiota.

Nyt kun osaat arvioida tilan arvofunktion mille tahansa politiikalle, luonnollinen seuraava askel on tutkia, löytyykö politiikkoja, jotka ovat parempia kuin nykyinen. Yksi tapa tehdä tämä on harkita eri toiminnon $a$ valitsemista tilassa $s$ ja seurata nykyistä politiikkaa sen jälkeen. Jos tämä kuulostaa tutulta, se johtuu siitä, että tämä muistuttaa toiminnon arvofunktion määritelmää:

q_\pi(s, a) = \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_\pi(s')\Bigr)

Jos tämä uusi arvo on suurempi kuin alkuperäinen tilan arvo $v_\pi(s)$ , se osoittaa, että toiminnon $a$ valitseminen tilassa $s$ ja sen jälkeen politiikan $\pi$ noudattaminen johtaa parempiin tuloksiin kuin politiikan $\pi$ seuraaminen alusta alkaen. Koska tilat ovat riippumattomia, on optimaalista valita aina toiminto $a$ , kun tila $s$ kohdataan. Näin ollen voimme muodostaa parannetun politiikan $\pi'$ , joka on muuten identtinen politiikan $\pi$ kanssa, mutta valitsee toiminnon $a$ tilassa $s$ , mikä tekee siitä alkuperäistä politiikkaa $\pi$ paremman.

Politiikan parantamisen lause

Yllä kuvattua päättelyä voidaan yleistää politiikan parantamisen lauseeksi:

\begin{aligned} &q_\pi(s, \pi'(s)) \ge v_\pi(s) \qquad &\forall s \in S\\ \implies &v_{\pi'}(s) \ge v_\pi(s) \qquad &\forall s \in S \end{aligned}

Tämän lauseen todistus on suhteellisen yksinkertainen ja voidaan saavuttaa toistuvalla sijoituksella:

\def\E{\operatorname{\mathbb{E}}} \begin{aligned} v_\pi(s) &\le q_\pi(s, \pi'(s))\\ &= \E_{\pi'}[R_{t+1} + \gamma v_\pi(S_{t+1}) | S_t = s]\\ &\le \E_{\pi'}[R_{t+1} + \gamma q_\pi(S_{t+1}, \pi'(S_{t+1})) | S_t = s]\\ &= \E_{\pi'}[R_{t+1} + \gamma \E_{\pi'}[R_{t+2} + \gamma v_\pi(S_{t+2})] | S_t = s]\\ &= \E_{\pi'}[R_{t+1} + \gamma R_{t+2} + \gamma^2 v_\pi(S_{t+2}) | S_t = s]\\ &...\\ &\le \E_{\pi'}[R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... | S_t = s]\\ &= v_{\pi'}(s) \end{aligned}

Parannusstrategia

Vaikka tiettyjen tilojen toimintojen päivittäminen voi johtaa parannuksiin, on tehokkaampaa päivittää toiminnot kaikille tiloille samanaikaisesti. Erityisesti jokaiselle tilalle $s$ valitaan toiminto $a$ , joka maksimoi toimintojen arvon $q_\pi(s, a)$ :

\begin{aligned} \pi'(s) &\gets \argmax_a q_\pi(s, a)\\ &\gets \argmax_a \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_\pi(s')\Bigr) \end{aligned}

missä $\argmax$ (lyhenne sanoista argument of the maximum) on operaattori, joka palauttaa muuttujan arvon, jolla annettu funktio saavuttaa maksimiarvonsa.

Tuloksena syntyvä ahne politiikka (greedy policy), jota merkitään $\pi'$ , täyttää politiikan parantamisen lauseen ehdot rakenteensa ansiosta, mikä takaa, että $\pi'$ on vähintään yhtä hyvä kuin alkuperäinen politiikka $\pi$ , ja yleensä parempi.

Jos $\pi'$ on yhtä hyvä kuin, mutta ei parempi kuin $\pi$ , molemmat $\pi'$ ja $\pi$ ovat optimaalisia politiikkoja, sillä niiden arvofunktiot ovat yhtäsuuret ja ne täyttävät Bellmanin optimaalisen yhtälön:

v_\pi(s) = \max_a \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_\pi(s')\Bigr)

Oliko kaikki selvää?

Kiitos palautteestasi!

Osio 3. Luku 5

Kysy tekoälyä

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Pyyhkäise näyttääksesi valikon