Kurssisisältö
Johdatus Vahvistusoppimiseen
Johdatus Vahvistusoppimiseen
Politiikan Parantaminen
Politiikan parantaminen on prosessi, jossa politiikkaa kehitetään nykyisten arvofunktioestimaattien perusteella.
Kuten politiikan arvioinnissa, politiikan parantaminen voi hyödyntää sekä tilan arvofunktiota että toiminnon arvofunktiota. Dynaamisen ohjelmoinnin menetelmissä käytetään kuitenkin tilan arvofunktiota.
Nyt kun osaat arvioida tilan arvofunktion mille tahansa politiikalle, luonnollinen seuraava askel on selvittää, löytyykö nykyistä politiikkaa parempia politiikkoja. Yksi tapa tehdä tämä on harkita eri toiminnon valitsemista tilassa ja noudattaa sen jälkeen nykyistä politiikkaa. Jos tämä kuulostaa tutulta, se johtuu siitä, että tämä muistuttaa toiminnon arvofunktion määritelmää:
Jos tämä uusi arvo on suurempi kuin alkuperäinen tilan arvo , se osoittaa, että toiminnon valitseminen tilassa ja sen jälkeen politiikan noudattaminen johtaa parempiin tuloksiin kuin politiikan tiukka seuraaminen. Koska tilat ovat riippumattomia, on optimaalista valita aina toiminto , kun tila kohdataan. Näin ollen voimme muodostaa parannetun politiikan , joka on muuten identtinen politiikan kanssa, mutta valitsee toiminnon tilassa , mikä olisi alkuperäistä politiikkaa parempi.
Politiikan parantamisen lause
Yllä kuvattua päättelyä voidaan yleistää politiikan parantamisen lauseeksi:
Tämän lauseen todistus on melko yksinkertainen ja voidaan saavuttaa toistuvalla sijoituksella:
Parannusstrategia
Vaikka tiettyjen tilojen toimintojen päivittäminen voi johtaa parannuksiin, on tehokkaampaa päivittää toiminnot kaikille tiloille samanaikaisesti. Tarkemmin sanottuna, jokaiselle tilalle valitaan toiminto , joka maksimoi toimintojen arvon :
missä (lyhenne sanoista argument of the maximum) on operaattori, joka palauttaa sen muuttujan arvon, jolla annettu funktio saa suurimman arvonsa.
Tuloksena syntyvä ahne politiikka (greedy policy), jota merkitään , täyttää politiikan parantamisen lauseen ehdot rakenteensa ansiosta, mikä takaa, että on vähintään yhtä hyvä kuin alkuperäinen politiikka , ja tyypillisesti parempi.
Jos on yhtä hyvä, mutta ei parempi kuin , molemmat ja ovat optimaalisia politiikkoja, sillä niiden arvofunktiot ovat yhtäsuuret ja ne täyttävät Bellmanin optimaalisen yhtälön:
Kiitos palautteestasi!