Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Optimaalisuusehdot | Dynaaminen Ohjelmointi
Johdatus Vahvistusoppimiseen
course content

Kurssisisältö

Johdatus Vahvistusoppimiseen

Johdatus Vahvistusoppimiseen

1. RL:n Ydinteoria
2. Moniaseinen Bandiittiongelma
3. Dynaaminen Ohjelmointi
4. Monte Carlo -Menetelmät
5. Aikaisen Eron Oppiminen

book
Optimaalisuusehdot

Edellisessä luvussa opit Bellmanin yhtälöistä tilan arvo- ja tila-toimintoarvofunktioille. Nämä yhtälöt kuvaavat, kuinka tilan arvot voidaan määritellä rekursiivisesti muiden tilojen arvojen kautta, ja arvot riippuvat annetusta politiikasta. Kaikki politiikat eivät kuitenkaan ole yhtä tehokkaita. Arvofunktiot muodostavatkin politiikoille osittaisjärjestyksen, joka voidaan ilmaista seuraavasti:

ππ    vπ(s)vπ(s)sS\pi \ge \pi' \iff v_\pi(s) \ge v_{\pi'}(s) \qquad \forall s \in S

Politiikka π\pi on siis parempi tai yhtä hyvä kuin politiikka π\pi', jos kaikissa mahdollisissa tiloissa politiikan π\pi odotettu tuotto ei ole pienempi kuin politiikan π\pi' odotettu tuotto.

Note
Lisätietoa

Osittaisjärjestys noudattaa tavanomaisia järjestyssääntöjä, mutta ei pakota vertailemaan jokaista paria. Tässä tapauksessa voimme asettaa kaksi politiikkaa järjestykseen vain, jos ne tuottavat samat tulokset tai toinen selvästi ylittää toisen. Kaikissa muissa tapauksissa politiikat jäävät vertaamattomiksi.

Optimaalinen politiikka

Note
Määritelmä

Jokaisessa MDP:ssä on olemassa vähintään yksi politiikka, joka on yhtä hyvä tai parempi kuin kaikki muut politiikat. Tätä politiikkaa kutsutaan optimaaliseksi politiikaksi π\pi_*. Vaikka optimaalisia politiikkoja voi olla useita, niitä kaikkia merkitään π\pi_*.

Miksi optimaalinen politiikka on aina olemassa?

Saatat miettiä, miksi optimaalinen politiikka aina on olemassa missä tahansa MDP:ssä. Tämä on erinomainen kysymys, ja sen taustalla oleva intuitio on yllättävän yksinkertainen. Muista, että tilat MDP:ssä kuvaavat täysin ympäristön tilan. Tämä tarkoittaa, että jokainen tila on riippumaton muista: yhdessä tilassa valittu toiminto ei vaikuta muiden tilojen palkkioihin tai saavutettaviin lopputuloksiin. Valitsemalla siis optimaalisen toiminnon jokaisessa tilassa erikseen, päädyt luonnollisesti kokonaisuudessaan parhaaseen toimintojen sarjaan koko prosessin aikana. Ja tämä optimaalisten toimintojen joukko jokaisessa tilassa muodostaa optimaalisen politiikan.

Lisäksi on aina olemassa vähintään yksi politiikka, joka on sekä optimaalinen että deterministinen. Jos jossakin tilassa ss kaksi toimintoa aa ja aa' tuottavat saman odotetun tuoton, yhden niistä valitseminen ei vaikuta politiikan optimaalisuuteen. Soveltamalla tätä periaatetta jokaiseen tilaan politiikasta tulee deterministinen säilyttäen samalla sen optimaalisuuden.

Optimaaliset arvotoiminnot

Optimaaliset politiikat jakavat samat arvotoimintofunktiot — tämä käy ilmi, kun tarkastellaan, miten politiikkoja verrataan. Tämä tarkoittaa, että optimaaliset politiikat jakavat sekä tilan arvotoimintofunktion että toiminnon arvotoimintofunktion.

Lisäksi optimaalisilla arvotoimintofunktioilla on omat Bellmanin yhtälönsä, jotka voidaan kirjoittaa viittaamatta mihinkään tiettyyn politiikkaan. Näitä yhtälöitä kutsutaan Bellmanin optimaalisen yhtälöiksi.

Optimaalinen tilan arvotoimintofunktio

Note
Määritelmä

Optimaalinen tilan arvotoimintofunktio VV_* (tai vv_*) kuvaa suurimman odotetun tuoton, joka on saavutettavissa tietyssä tilassa noudattamalla optimaalista politiikkaa.

Se voidaan määritellä matemaattisesti seuraavasti:

v(s)=maxπvπ(s)=Eπ[GtSt=s]\def\E{\operatorname{\mathbb{E}}} v_*(s) = \max_\pi v_\pi(s) = \E_{\pi_*}[G_t | S_t = s]

Bellmanin optimaalinen yhtälö tälle arvotoiminnolle voidaan johtaa seuraavasti:

v(s)=aπ(as)s,rp(s,rs,a)(r+γv(s))=maxas,rp(s,rs,a)(r+γv(s))\begin{aligned} v_*(s) &= \sum_a \pi_*(a | s) \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_*(s')\Bigr)\\ &= \max_a \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_*(s')\Bigr) \end{aligned}

Intuitio

Kuten jo tiedät, on aina olemassa vähintään yksi politiikka, joka on sekä optimaalinen että deterministinen. Tällainen politiikka valitsee jokaisessa tilassa johdonmukaisesti yhden tietyn toimenpiteen, joka maksimoi odotetun tuoton. Tämän vuoksi tämän optimaalisen toimenpiteen valitsemisen todennäköisyys on aina 1, ja minkä tahansa muun toimenpiteen todennäköisyys on 0. Tämän perusteella alkuperäinen Bellmanin yhtälö ei enää tarvitse summasymbolia. Koska tiedämme valitsevamme aina parhaan mahdollisen toimenpiteen, voimme yksinkertaisesti korvata summan ottamalla maksimin kaikista mahdollisista toimenpiteistä.

Optimaalinen toimintojen arvofunktio

Note
Määritelmä

Optimaalinen toimintojen arvofunktio QQ_* (tai qq_*) kuvaa suurimman odotetun tuoton, joka voidaan saavuttaa suorittamalla tietty toiminto tietyssä tilassa ja noudattamalla sen jälkeen optimaalista politiikkaa.

Se voidaan määritellä matemaattisesti seuraavasti:

q(s,a)=maxπqπ(s,a)=Eπ[GtSt=s,At=a]\def\E{\operatorname{\mathbb{E}}} q_*(s, a) = \max_\pi q_\pi(s, a) = \E_{\pi_*}[G_t | S_t = s, A_t = a]

Bellmanin optimaalinen yhtälö tälle arvotoimintofunktiolle voidaan johtaa seuraavasti:

q(s,a)=s,rp(s,rs,a)(r+γaπ(as)q(s,a))=s,rp(s,rs,a)(r+γmaxaq(s,a))\begin{aligned} q_*(s, a) &= \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma \sum_{a'} \pi_*(a' | s')q_*(s', a')\Bigr)\\ &= \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma \max_{a'} q_*(s', a')\Bigr) \end{aligned}

Intuitio

Samoin kuin tilan arvotoiminnossa, summa voidaan korvata ottamalla maksimi kaikista mahdollisista toiminnoista.

question mark

Miksi optimaalinen politiikka on aina olemassa missä tahansa Markovin päätösprosessissa?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 3. Luku 3

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

course content

Kurssisisältö

Johdatus Vahvistusoppimiseen

Johdatus Vahvistusoppimiseen

1. RL:n Ydinteoria
2. Moniaseinen Bandiittiongelma
3. Dynaaminen Ohjelmointi
4. Monte Carlo -Menetelmät
5. Aikaisen Eron Oppiminen

book
Optimaalisuusehdot

Edellisessä luvussa opit Bellmanin yhtälöistä tilan arvo- ja tila-toimintoarvofunktioille. Nämä yhtälöt kuvaavat, kuinka tilan arvot voidaan määritellä rekursiivisesti muiden tilojen arvojen kautta, ja arvot riippuvat annetusta politiikasta. Kaikki politiikat eivät kuitenkaan ole yhtä tehokkaita. Arvofunktiot muodostavatkin politiikoille osittaisjärjestyksen, joka voidaan ilmaista seuraavasti:

ππ    vπ(s)vπ(s)sS\pi \ge \pi' \iff v_\pi(s) \ge v_{\pi'}(s) \qquad \forall s \in S

Politiikka π\pi on siis parempi tai yhtä hyvä kuin politiikka π\pi', jos kaikissa mahdollisissa tiloissa politiikan π\pi odotettu tuotto ei ole pienempi kuin politiikan π\pi' odotettu tuotto.

Note
Lisätietoa

Osittaisjärjestys noudattaa tavanomaisia järjestyssääntöjä, mutta ei pakota vertailemaan jokaista paria. Tässä tapauksessa voimme asettaa kaksi politiikkaa järjestykseen vain, jos ne tuottavat samat tulokset tai toinen selvästi ylittää toisen. Kaikissa muissa tapauksissa politiikat jäävät vertaamattomiksi.

Optimaalinen politiikka

Note
Määritelmä

Jokaisessa MDP:ssä on olemassa vähintään yksi politiikka, joka on yhtä hyvä tai parempi kuin kaikki muut politiikat. Tätä politiikkaa kutsutaan optimaaliseksi politiikaksi π\pi_*. Vaikka optimaalisia politiikkoja voi olla useita, niitä kaikkia merkitään π\pi_*.

Miksi optimaalinen politiikka on aina olemassa?

Saatat miettiä, miksi optimaalinen politiikka aina on olemassa missä tahansa MDP:ssä. Tämä on erinomainen kysymys, ja sen taustalla oleva intuitio on yllättävän yksinkertainen. Muista, että tilat MDP:ssä kuvaavat täysin ympäristön tilan. Tämä tarkoittaa, että jokainen tila on riippumaton muista: yhdessä tilassa valittu toiminto ei vaikuta muiden tilojen palkkioihin tai saavutettaviin lopputuloksiin. Valitsemalla siis optimaalisen toiminnon jokaisessa tilassa erikseen, päädyt luonnollisesti kokonaisuudessaan parhaaseen toimintojen sarjaan koko prosessin aikana. Ja tämä optimaalisten toimintojen joukko jokaisessa tilassa muodostaa optimaalisen politiikan.

Lisäksi on aina olemassa vähintään yksi politiikka, joka on sekä optimaalinen että deterministinen. Jos jossakin tilassa ss kaksi toimintoa aa ja aa' tuottavat saman odotetun tuoton, yhden niistä valitseminen ei vaikuta politiikan optimaalisuuteen. Soveltamalla tätä periaatetta jokaiseen tilaan politiikasta tulee deterministinen säilyttäen samalla sen optimaalisuuden.

Optimaaliset arvotoiminnot

Optimaaliset politiikat jakavat samat arvotoimintofunktiot — tämä käy ilmi, kun tarkastellaan, miten politiikkoja verrataan. Tämä tarkoittaa, että optimaaliset politiikat jakavat sekä tilan arvotoimintofunktion että toiminnon arvotoimintofunktion.

Lisäksi optimaalisilla arvotoimintofunktioilla on omat Bellmanin yhtälönsä, jotka voidaan kirjoittaa viittaamatta mihinkään tiettyyn politiikkaan. Näitä yhtälöitä kutsutaan Bellmanin optimaalisen yhtälöiksi.

Optimaalinen tilan arvotoimintofunktio

Note
Määritelmä

Optimaalinen tilan arvotoimintofunktio VV_* (tai vv_*) kuvaa suurimman odotetun tuoton, joka on saavutettavissa tietyssä tilassa noudattamalla optimaalista politiikkaa.

Se voidaan määritellä matemaattisesti seuraavasti:

v(s)=maxπvπ(s)=Eπ[GtSt=s]\def\E{\operatorname{\mathbb{E}}} v_*(s) = \max_\pi v_\pi(s) = \E_{\pi_*}[G_t | S_t = s]

Bellmanin optimaalinen yhtälö tälle arvotoiminnolle voidaan johtaa seuraavasti:

v(s)=aπ(as)s,rp(s,rs,a)(r+γv(s))=maxas,rp(s,rs,a)(r+γv(s))\begin{aligned} v_*(s) &= \sum_a \pi_*(a | s) \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_*(s')\Bigr)\\ &= \max_a \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_*(s')\Bigr) \end{aligned}

Intuitio

Kuten jo tiedät, on aina olemassa vähintään yksi politiikka, joka on sekä optimaalinen että deterministinen. Tällainen politiikka valitsee jokaisessa tilassa johdonmukaisesti yhden tietyn toimenpiteen, joka maksimoi odotetun tuoton. Tämän vuoksi tämän optimaalisen toimenpiteen valitsemisen todennäköisyys on aina 1, ja minkä tahansa muun toimenpiteen todennäköisyys on 0. Tämän perusteella alkuperäinen Bellmanin yhtälö ei enää tarvitse summasymbolia. Koska tiedämme valitsevamme aina parhaan mahdollisen toimenpiteen, voimme yksinkertaisesti korvata summan ottamalla maksimin kaikista mahdollisista toimenpiteistä.

Optimaalinen toimintojen arvofunktio

Note
Määritelmä

Optimaalinen toimintojen arvofunktio QQ_* (tai qq_*) kuvaa suurimman odotetun tuoton, joka voidaan saavuttaa suorittamalla tietty toiminto tietyssä tilassa ja noudattamalla sen jälkeen optimaalista politiikkaa.

Se voidaan määritellä matemaattisesti seuraavasti:

q(s,a)=maxπqπ(s,a)=Eπ[GtSt=s,At=a]\def\E{\operatorname{\mathbb{E}}} q_*(s, a) = \max_\pi q_\pi(s, a) = \E_{\pi_*}[G_t | S_t = s, A_t = a]

Bellmanin optimaalinen yhtälö tälle arvotoimintofunktiolle voidaan johtaa seuraavasti:

q(s,a)=s,rp(s,rs,a)(r+γaπ(as)q(s,a))=s,rp(s,rs,a)(r+γmaxaq(s,a))\begin{aligned} q_*(s, a) &= \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma \sum_{a'} \pi_*(a' | s')q_*(s', a')\Bigr)\\ &= \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma \max_{a'} q_*(s', a')\Bigr) \end{aligned}

Intuitio

Samoin kuin tilan arvotoiminnossa, summa voidaan korvata ottamalla maksimi kaikista mahdollisista toiminnoista.

question mark

Miksi optimaalinen politiikka on aina olemassa missä tahansa Markovin päätösprosessissa?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 3. Luku 3
some-alt