Oppiskele Optimaalisuusehdot | Dynaaminen Ohjelmointi

Edellisessä luvussa opit Bellmanin yhtälöistä tilan arvo- ja tila-toimintoarvofunktioille. Nämä yhtälöt kuvaavat, kuinka tilan arvot voidaan määritellä rekursiivisesti muiden tilojen arvojen kautta, ja arvot riippuvat annetusta politiikasta. Kaikki politiikat eivät kuitenkaan ole yhtä tehokkaita. Arvofunktiot muodostavatkin politiikoille osittaisjärjestyksen, joka voidaan esittää seuraavasti:

\pi \ge \pi' \iff v_\pi(s) \ge v_{\pi'}(s) \qquad \forall s \in S

Politiikka $\pi$ on parempi tai yhtä hyvä kuin politiikka $\pi'$ , jos kaikissa mahdollisissa tiloissa politiikan $\pi$ odotettu tuotto ei ole pienempi kuin politiikan $\pi'$ odotettu tuotto.

Opiskele lisää

Osittaisjärjestys noudattaa tavanomaisia järjestyssääntöjä, mutta ei vaadi kaikkien parien vertaamista. Tässä tapauksessa voimme asettaa kaksi politiikkaa järjestykseen vain, jos ne tuottavat samat tulokset tai toinen selvästi ylittää toisen. Muissa tapauksissa politiikat jäävät vertaamattomiksi.

Optimaalinen politiikka

Määritelmä

Jokaisessa MDP:ssä on olemassa vähintään yksi politiikka, joka on yhtä hyvä tai parempi kuin kaikki muut politiikat. Tätä politiikkaa kutsutaan optimaaliseksi politiikaksi $\pi_*$ . Vaikka optimaalisia politiikkoja voi olla useita, niitä kaikkia merkitään $\pi_*$ .

Miksi optimaalinen politiikka on aina olemassa?

Saatat miettiä, miksi optimaalinen politiikka aina on olemassa missä tahansa MDP:ssä. Tämä on hyvä kysymys, ja sen taustalla oleva intuitio on yllättävän yksinkertainen. Muista, että tilat MDP:ssä kuvaavat täysin ympäristön tilan. Tämä tarkoittaa, että jokainen tila on riippumaton muista: yhdessä tilassa valittu toiminto ei vaikuta muiden tilojen palkkioihin tai lopputuloksiin. Siksi valitsemalla optimaalisen toiminnon jokaisessa tilassa erikseen, päädyt luonnollisesti kokonaisuudessaan parhaaseen toimintojen sarjaan koko prosessin aikana. Ja tämä optimaalisten toimintojen joukko jokaisessa tilassa muodostaa optimaalisen politiikan.

Lisäksi on aina olemassa vähintään yksi politiikka, joka on sekä optimaalinen että deterministinen. Jos jossakin tilassa $s$ kaksi toimintoa $a$ ja $a'$ tuottavat saman odotetun tuoton, yhden valitseminen ei vaikuta politiikan optimaalisuuteen. Soveltamalla tätä periaatetta jokaiseen tilaan politiikasta tulee deterministinen säilyttäen samalla sen optimaalisuuden.

Optimaaliset arvofunktiot

Optimaaliset politiikat jakavat samat arvotoiminnot — tämä käy ilmi, kun tarkastellaan, miten politiikkoja verrataan. Tämä tarkoittaa, että optimaaliset politiikat jakavat sekä tilan arvotoiminnon että toiminnon arvotoiminnon.

Lisäksi optimaalisilla arvotoiminnoilla on omat Bellmanin yhtälönsä, jotka voidaan kirjoittaa viittaamatta mihinkään tiettyyn politiikkaan. Näitä yhtälöitä kutsutaan Bellmanin optimaalisen yhtälöiksi.

Optimaalinen tilan arvotoiminto

Määritelmä

Optimaalinen tilan arvotoiminto $V_*$ (tai $v_*$ ) kuvaa suurimman odotetun tuoton, joka on saavutettavissa tietyssä tilassa noudattamalla optimaalista politiikkaa.

Se voidaan määritellä matemaattisesti seuraavasti:

\def\E{\operatorname{\mathbb{E}}} v_*(s) = \max_\pi v_\pi(s) = \E_{\pi_*}[G_t | S_t = s]

Bellmanin optimaalinen yhtälö tälle arvotoiminnolle voidaan johtaa seuraavasti:

\begin{aligned} v_*(s) &= \sum_a \pi_*(a | s) \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_*(s')\Bigr)\\ &= \max_a \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_*(s')\Bigr) \end{aligned}

Intuitio

Kuten jo tiedät, on aina olemassa vähintään yksi politiikka, joka on sekä optimaalinen että deterministinen. Tällainen politiikka valitsee jokaisessa tilassa johdonmukaisesti yhden tietyn toimenpiteen, joka maksimoi odotetun tuoton. Tämän vuoksi tämän optimaalisen toimenpiteen valitsemisen todennäköisyys on aina 1, ja minkä tahansa muun toimenpiteen todennäköisyys on 0. Tämän perusteella alkuperäinen Bellmanin yhtälö ei enää tarvitse summasymbolia. Koska tiedämme valitsevamme aina parhaan mahdollisen toimenpiteen, voimme yksinkertaisesti korvata summan ottamalla maksimin kaikista mahdollisista toimenpiteistä.

Optimaalinen toimintojen arvofunktio

Määritelmä

Optimaalinen toimintojen arvofunktio $Q_*$ (tai $q_*$ ) kuvaa suurimman odotetun tuoton, joka voidaan saavuttaa suorittamalla tietty toiminto tietyssä tilassa ja noudattamalla optimaalista politiikkaa sen jälkeen.

Se voidaan määritellä matemaattisesti seuraavasti:

\def\E{\operatorname{\mathbb{E}}} q_*(s, a) = \max_\pi q_\pi(s, a) = \E_{\pi_*}[G_t | S_t = s, A_t = a]

Bellmanin optimaalisuusyhtälö tälle arvofunktiolle voidaan johtaa seuraavasti:

\begin{aligned} q_*(s, a) &= \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma \sum_{a'} \pi_*(a' | s')q_*(s', a')\Bigr)\\ &= \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma \max_{a'} q_*(s', a')\Bigr) \end{aligned}

Intuitio

Samoin kuin tilan arvon funktiossa, summa voidaan korvata ottamalla maksimi kaikista mahdollisista toiminnoista.

Oliko kaikki selvää?

Kiitos palautteestasi!

Osio 3. Luku 3

Kysy tekoälyä

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Pyyhkäise näyttääksesi valikon

\pi \ge \pi' \iff v_\pi(s) \ge v_{\pi'}(s) \qquad \forall s \in S

Politiikka $\pi$ on parempi tai yhtä hyvä kuin politiikka $\pi'$ , jos kaikissa mahdollisissa tiloissa politiikan $\pi$ odotettu tuotto ei ole pienempi kuin politiikan $\pi'$ odotettu tuotto.

Opiskele lisää

Optimaalinen politiikka

Määritelmä

Miksi optimaalinen politiikka on aina olemassa?

Optimaaliset arvofunktiot

Optimaalinen tilan arvotoiminto

Määritelmä

Optimaalinen tilan arvotoiminto $V_*$ (tai $v_*$ ) kuvaa suurimman odotetun tuoton, joka on saavutettavissa tietyssä tilassa noudattamalla optimaalista politiikkaa.

Se voidaan määritellä matemaattisesti seuraavasti:

\def\E{\operatorname{\mathbb{E}}} v_*(s) = \max_\pi v_\pi(s) = \E_{\pi_*}[G_t | S_t = s]

Bellmanin optimaalinen yhtälö tälle arvotoiminnolle voidaan johtaa seuraavasti:

\begin{aligned} v_*(s) &= \sum_a \pi_*(a | s) \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_*(s')\Bigr)\\ &= \max_a \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_*(s')\Bigr) \end{aligned}

Intuitio

Optimaalinen toimintojen arvofunktio

Määritelmä

Se voidaan määritellä matemaattisesti seuraavasti:

\def\E{\operatorname{\mathbb{E}}} q_*(s, a) = \max_\pi q_\pi(s, a) = \E_{\pi_*}[G_t | S_t = s, A_t = a]

Bellmanin optimaalisuusyhtälö tälle arvofunktiolle voidaan johtaa seuraavasti:

\begin{aligned} q_*(s, a) &= \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma \sum_{a'} \pi_*(a' | s')q_*(s', a')\Bigr)\\ &= \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma \max_{a'} q_*(s', a')\Bigr) \end{aligned}

Intuitio

Samoin kuin tilan arvon funktiossa, summa voidaan korvata ottamalla maksimi kaikista mahdollisista toiminnoista.

Oliko kaikki selvää?

Kiitos palautteestasi!

Osio 3. Luku 3