Kurssisisältö
Johdatus Vahvistusoppimiseen
Johdatus Vahvistusoppimiseen
Optimaalisuusehdot
Edellisessä luvussa opit Bellmanin yhtälöistä tilan arvo- ja tila-toimintoarvofunktioille. Nämä yhtälöt kuvaavat, kuinka tilan arvot voidaan määritellä rekursiivisesti muiden tilojen arvojen kautta, ja arvot riippuvat annetusta politiikasta. Kaikki politiikat eivät kuitenkaan ole yhtä tehokkaita. Arvofunktiot muodostavatkin politiikoille osittaisjärjestyksen, joka voidaan ilmaista seuraavasti:
Politiikka on siis parempi tai yhtä hyvä kuin politiikka , jos kaikissa mahdollisissa tiloissa politiikan odotettu tuotto ei ole pienempi kuin politiikan odotettu tuotto.
Osittaisjärjestys noudattaa tavanomaisia järjestyssääntöjä, mutta ei pakota vertailemaan jokaista paria. Tässä tapauksessa voimme asettaa kaksi politiikkaa järjestykseen vain, jos ne tuottavat samat tulokset tai toinen selvästi ylittää toisen. Kaikissa muissa tapauksissa politiikat jäävät vertaamattomiksi.
Optimaalinen politiikka
Jokaisessa MDP:ssä on olemassa vähintään yksi politiikka, joka on yhtä hyvä tai parempi kuin kaikki muut politiikat. Tätä politiikkaa kutsutaan optimaaliseksi politiikaksi . Vaikka optimaalisia politiikkoja voi olla useita, niitä kaikkia merkitään .
Miksi optimaalinen politiikka on aina olemassa?
Saatat miettiä, miksi optimaalinen politiikka aina on olemassa missä tahansa MDP:ssä. Tämä on erinomainen kysymys, ja sen taustalla oleva intuitio on yllättävän yksinkertainen. Muista, että tilat MDP:ssä kuvaavat täysin ympäristön tilan. Tämä tarkoittaa, että jokainen tila on riippumaton muista: yhdessä tilassa valittu toiminto ei vaikuta muiden tilojen palkkioihin tai saavutettaviin lopputuloksiin. Valitsemalla siis optimaalisen toiminnon jokaisessa tilassa erikseen, päädyt luonnollisesti kokonaisuudessaan parhaaseen toimintojen sarjaan koko prosessin aikana. Ja tämä optimaalisten toimintojen joukko jokaisessa tilassa muodostaa optimaalisen politiikan.
Lisäksi on aina olemassa vähintään yksi politiikka, joka on sekä optimaalinen että deterministinen. Jos jossakin tilassa kaksi toimintoa ja tuottavat saman odotetun tuoton, yhden niistä valitseminen ei vaikuta politiikan optimaalisuuteen. Soveltamalla tätä periaatetta jokaiseen tilaan politiikasta tulee deterministinen säilyttäen samalla sen optimaalisuuden.
Optimaaliset arvotoiminnot
Optimaaliset politiikat jakavat samat arvotoimintofunktiot — tämä käy ilmi, kun tarkastellaan, miten politiikkoja verrataan. Tämä tarkoittaa, että optimaaliset politiikat jakavat sekä tilan arvotoimintofunktion että toiminnon arvotoimintofunktion.
Lisäksi optimaalisilla arvotoimintofunktioilla on omat Bellmanin yhtälönsä, jotka voidaan kirjoittaa viittaamatta mihinkään tiettyyn politiikkaan. Näitä yhtälöitä kutsutaan Bellmanin optimaalisen yhtälöiksi.
Optimaalinen tilan arvotoimintofunktio
Optimaalinen tilan arvotoimintofunktio (tai ) kuvaa suurimman odotetun tuoton, joka on saavutettavissa tietyssä tilassa noudattamalla optimaalista politiikkaa.
Se voidaan määritellä matemaattisesti seuraavasti:
Bellmanin optimaalinen yhtälö tälle arvotoiminnolle voidaan johtaa seuraavasti:
Intuitio
Kuten jo tiedät, on aina olemassa vähintään yksi politiikka, joka on sekä optimaalinen että deterministinen. Tällainen politiikka valitsee jokaisessa tilassa johdonmukaisesti yhden tietyn toimenpiteen, joka maksimoi odotetun tuoton. Tämän vuoksi tämän optimaalisen toimenpiteen valitsemisen todennäköisyys on aina 1, ja minkä tahansa muun toimenpiteen todennäköisyys on 0. Tämän perusteella alkuperäinen Bellmanin yhtälö ei enää tarvitse summasymbolia. Koska tiedämme valitsevamme aina parhaan mahdollisen toimenpiteen, voimme yksinkertaisesti korvata summan ottamalla maksimin kaikista mahdollisista toimenpiteistä.
Optimaalinen toimintojen arvofunktio
Optimaalinen toimintojen arvofunktio (tai ) kuvaa suurimman odotetun tuoton, joka voidaan saavuttaa suorittamalla tietty toiminto tietyssä tilassa ja noudattamalla sen jälkeen optimaalista politiikkaa.
Se voidaan määritellä matemaattisesti seuraavasti:
Bellmanin optimaalinen yhtälö tälle arvotoimintofunktiolle voidaan johtaa seuraavasti:
Intuitio
Samoin kuin tilan arvotoiminnossa, summa voidaan korvata ottamalla maksimi kaikista mahdollisista toiminnoista.
Kiitos palautteestasi!