Politiikan Parantaminen
Politiikan parantaminen on prosessi, jossa politiikkaa kehitetään nykyisten arvofunktioestimaattien perusteella.
Kuten politiikan arvioinnissa, politiikan parantaminen voi hyödyntää sekä tilan arvofunktiota että toiminnon arvofunktiota. Dynaamisen ohjelmoinnin menetelmissä käytetään kuitenkin tilan arvofunktiota.
Nyt kun osaat arvioida tilan arvofunktion mille tahansa politiikalle, luonnollinen seuraava askel on selvittää, löytyykö nykyistä politiikkaa parempia politiikkoja. Yksi tapa tehdä tämä on harkita eri toiminnon a valitsemista tilassa s ja noudattaa sen jälkeen nykyistä politiikkaa. Jos tämä kuulostaa tutulta, se johtuu siitä, että tämä muistuttaa toiminnon arvofunktion määritelmää:
qπ(s,a)=s′,r∑p(s′,r∣s,a)(r+γvπ(s′))Jos tämä uusi arvo on suurempi kuin alkuperäinen tilan arvo vπ(s), se osoittaa, että toiminnon a valitseminen tilassa s ja sen jälkeen politiikan π noudattaminen johtaa parempiin tuloksiin kuin politiikan π tiukka seuraaminen. Koska tilat ovat riippumattomia, on optimaalista valita aina toiminto a, kun tila s kohdataan. Näin ollen voimme muodostaa parannetun politiikan π′, joka on muuten identtinen politiikan π kanssa, mutta valitsee toiminnon a tilassa s, mikä olisi alkuperäistä politiikkaa π parempi.
Politiikan parantamisen lause
Yllä kuvattua päättelyä voidaan yleistää politiikan parantamisen lauseeksi:
⟹qπ(s,π′(s))≥vπ(s)vπ′(s)≥vπ(s)∀s∈S∀s∈STämän lauseen todistus on melko yksinkertainen ja voidaan saavuttaa toistuvalla sijoituksella:
vπ(s)≤qπ(s,π′(s))=Eπ′[Rt+1+γvπ(St+1)∣St=s]≤Eπ′[Rt+1+γqπ(St+1,π′(St+1))∣St=s]=Eπ′[Rt+1+γEπ′[Rt+2+γvπ(St+2)]∣St=s]=Eπ′[Rt+1+γRt+2+γ2vπ(St+2)∣St=s]...≤Eπ′[Rt+1+γRt+2+γ2Rt+3+...∣St=s]=vπ′(s)Parannusstrategia
Vaikka tiettyjen tilojen toimintojen päivittäminen voi johtaa parannuksiin, on tehokkaampaa päivittää toiminnot kaikille tiloille samanaikaisesti. Tarkemmin sanottuna, jokaiselle tilalle s valitaan toiminto a, joka maksimoi toimintojen arvon qπ(s,a):
π′(s)←aargmaxqπ(s,a)←aargmaxs′,r∑p(s′,r∣s,a)(r+γvπ(s′))missä argmax (lyhenne sanoista argument of the maximum) on operaattori, joka palauttaa sen muuttujan arvon, jolla annettu funktio saa suurimman arvonsa.
Tuloksena syntyvä ahne politiikka (greedy policy), jota merkitään π′, täyttää politiikan parantamisen lauseen ehdot rakenteensa ansiosta, mikä takaa, että π′ on vähintään yhtä hyvä kuin alkuperäinen politiikka π, ja tyypillisesti parempi.
Jos π′ on yhtä hyvä, mutta ei parempi kuin π, molemmat π′ ja π ovat optimaalisia politiikkoja, sillä niiden arvofunktiot ovat yhtäsuuret ja ne täyttävät Bellmanin optimaalisen yhtälön:
vπ(s)=amaxs′,r∑p(s′,r∣s,a)(r+γvπ(s′))Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
Awesome!
Completion rate improved to 2.7
Politiikan Parantaminen
Pyyhkäise näyttääksesi valikon
Politiikan parantaminen on prosessi, jossa politiikkaa kehitetään nykyisten arvofunktioestimaattien perusteella.
Kuten politiikan arvioinnissa, politiikan parantaminen voi hyödyntää sekä tilan arvofunktiota että toiminnon arvofunktiota. Dynaamisen ohjelmoinnin menetelmissä käytetään kuitenkin tilan arvofunktiota.
Nyt kun osaat arvioida tilan arvofunktion mille tahansa politiikalle, luonnollinen seuraava askel on selvittää, löytyykö nykyistä politiikkaa parempia politiikkoja. Yksi tapa tehdä tämä on harkita eri toiminnon a valitsemista tilassa s ja noudattaa sen jälkeen nykyistä politiikkaa. Jos tämä kuulostaa tutulta, se johtuu siitä, että tämä muistuttaa toiminnon arvofunktion määritelmää:
qπ(s,a)=s′,r∑p(s′,r∣s,a)(r+γvπ(s′))Jos tämä uusi arvo on suurempi kuin alkuperäinen tilan arvo vπ(s), se osoittaa, että toiminnon a valitseminen tilassa s ja sen jälkeen politiikan π noudattaminen johtaa parempiin tuloksiin kuin politiikan π tiukka seuraaminen. Koska tilat ovat riippumattomia, on optimaalista valita aina toiminto a, kun tila s kohdataan. Näin ollen voimme muodostaa parannetun politiikan π′, joka on muuten identtinen politiikan π kanssa, mutta valitsee toiminnon a tilassa s, mikä olisi alkuperäistä politiikkaa π parempi.
Politiikan parantamisen lause
Yllä kuvattua päättelyä voidaan yleistää politiikan parantamisen lauseeksi:
⟹qπ(s,π′(s))≥vπ(s)vπ′(s)≥vπ(s)∀s∈S∀s∈STämän lauseen todistus on melko yksinkertainen ja voidaan saavuttaa toistuvalla sijoituksella:
vπ(s)≤qπ(s,π′(s))=Eπ′[Rt+1+γvπ(St+1)∣St=s]≤Eπ′[Rt+1+γqπ(St+1,π′(St+1))∣St=s]=Eπ′[Rt+1+γEπ′[Rt+2+γvπ(St+2)]∣St=s]=Eπ′[Rt+1+γRt+2+γ2vπ(St+2)∣St=s]...≤Eπ′[Rt+1+γRt+2+γ2Rt+3+...∣St=s]=vπ′(s)Parannusstrategia
Vaikka tiettyjen tilojen toimintojen päivittäminen voi johtaa parannuksiin, on tehokkaampaa päivittää toiminnot kaikille tiloille samanaikaisesti. Tarkemmin sanottuna, jokaiselle tilalle s valitaan toiminto a, joka maksimoi toimintojen arvon qπ(s,a):
π′(s)←aargmaxqπ(s,a)←aargmaxs′,r∑p(s′,r∣s,a)(r+γvπ(s′))missä argmax (lyhenne sanoista argument of the maximum) on operaattori, joka palauttaa sen muuttujan arvon, jolla annettu funktio saa suurimman arvonsa.
Tuloksena syntyvä ahne politiikka (greedy policy), jota merkitään π′, täyttää politiikan parantamisen lauseen ehdot rakenteensa ansiosta, mikä takaa, että π′ on vähintään yhtä hyvä kuin alkuperäinen politiikka π, ja tyypillisesti parempi.
Jos π′ on yhtä hyvä, mutta ei parempi kuin π, molemmat π′ ja π ovat optimaalisia politiikkoja, sillä niiden arvofunktiot ovat yhtäsuuret ja ne täyttävät Bellmanin optimaalisen yhtälön:
vπ(s)=amaxs′,r∑p(s′,r∣s,a)(r+γvπ(s′))Kiitos palautteestasi!