Politiikan Parantaminen
Politiikan parantaminen on prosessi, jossa politiikkaa kehitetään nykyisten arvofunktioestimaattien perusteella.
Kuten politiikan arvioinnissa, politiikan parantaminen voi hyödyntää sekä tilan arvofunktiota että toiminnon arvofunktiota. Dynaamisen ohjelmoinnin menetelmissä käytetään kuitenkin tilan arvofunktiota.
Nyt kun osaat arvioida tilan arvofunktion mille tahansa politiikalle, luonnollinen seuraava askel on tutkia, löytyykö politiikkoja, jotka ovat parempia kuin nykyinen. Yksi tapa tehdä tämä on harkita eri toiminnon a valitsemista tilassa s ja seurata nykyistä politiikkaa sen jälkeen. Jos tämä kuulostaa tutulta, se johtuu siitä, että tämä muistuttaa toiminnon arvofunktion määritelmää:
qπ(s,a)=s′,r∑p(s′,r∣s,a)(r+γvπ(s′))Jos tämä uusi arvo on suurempi kuin alkuperäinen tilan arvo vπ(s), se osoittaa, että toiminnon a valitseminen tilassa s ja sen jälkeen politiikan π noudattaminen johtaa parempiin tuloksiin kuin politiikan π seuraaminen alusta alkaen. Koska tilat ovat riippumattomia, on optimaalista valita aina toiminto a, kun tila s kohdataan. Näin ollen voimme muodostaa parannetun politiikan π′, joka on muuten identtinen politiikan π kanssa, mutta valitsee toiminnon a tilassa s, mikä tekee siitä alkuperäistä politiikkaa π paremman.
Politiikan parantamisen lause
Yllä kuvattua päättelyä voidaan yleistää politiikan parantamisen lauseeksi:
⟹qπ(s,π′(s))≥vπ(s)vπ′(s)≥vπ(s)∀s∈S∀s∈STämän lauseen todistus on suhteellisen yksinkertainen ja voidaan saavuttaa toistuvalla sijoituksella:
vπ(s)≤qπ(s,π′(s))=Eπ′[Rt+1+γvπ(St+1)∣St=s]≤Eπ′[Rt+1+γqπ(St+1,π′(St+1))∣St=s]=Eπ′[Rt+1+γEπ′[Rt+2+γvπ(St+2)]∣St=s]=Eπ′[Rt+1+γRt+2+γ2vπ(St+2)∣St=s]...≤Eπ′[Rt+1+γRt+2+γ2Rt+3+...∣St=s]=vπ′(s)Parannusstrategia
Vaikka tiettyjen tilojen toimintojen päivittäminen voi johtaa parannuksiin, on tehokkaampaa päivittää toiminnot kaikille tiloille samanaikaisesti. Erityisesti jokaiselle tilalle s valitaan toiminto a, joka maksimoi toimintojen arvon qπ(s,a):
π′(s)←aargmaxqπ(s,a)←aargmaxs′,r∑p(s′,r∣s,a)(r+γvπ(s′))missä argmax (lyhenne sanoista argument of the maximum) on operaattori, joka palauttaa muuttujan arvon, jolla annettu funktio saavuttaa maksimiarvonsa.
Tuloksena syntyvä ahne politiikka (greedy policy), jota merkitään π′, täyttää politiikan parantamisen lauseen ehdot rakenteensa ansiosta, mikä takaa, että π′ on vähintään yhtä hyvä kuin alkuperäinen politiikka π, ja yleensä parempi.
Jos π′ on yhtä hyvä kuin, mutta ei parempi kuin π, molemmat π′ ja π ovat optimaalisia politiikkoja, sillä niiden arvofunktiot ovat yhtäsuuret ja ne täyttävät Bellmanin optimaalisen yhtälön:
vπ(s)=amaxs′,r∑p(s′,r∣s,a)(r+γvπ(s′))Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
Awesome!
Completion rate improved to 2.7
Politiikan Parantaminen
Pyyhkäise näyttääksesi valikon
Politiikan parantaminen on prosessi, jossa politiikkaa kehitetään nykyisten arvofunktioestimaattien perusteella.
Kuten politiikan arvioinnissa, politiikan parantaminen voi hyödyntää sekä tilan arvofunktiota että toiminnon arvofunktiota. Dynaamisen ohjelmoinnin menetelmissä käytetään kuitenkin tilan arvofunktiota.
Nyt kun osaat arvioida tilan arvofunktion mille tahansa politiikalle, luonnollinen seuraava askel on tutkia, löytyykö politiikkoja, jotka ovat parempia kuin nykyinen. Yksi tapa tehdä tämä on harkita eri toiminnon a valitsemista tilassa s ja seurata nykyistä politiikkaa sen jälkeen. Jos tämä kuulostaa tutulta, se johtuu siitä, että tämä muistuttaa toiminnon arvofunktion määritelmää:
qπ(s,a)=s′,r∑p(s′,r∣s,a)(r+γvπ(s′))Jos tämä uusi arvo on suurempi kuin alkuperäinen tilan arvo vπ(s), se osoittaa, että toiminnon a valitseminen tilassa s ja sen jälkeen politiikan π noudattaminen johtaa parempiin tuloksiin kuin politiikan π seuraaminen alusta alkaen. Koska tilat ovat riippumattomia, on optimaalista valita aina toiminto a, kun tila s kohdataan. Näin ollen voimme muodostaa parannetun politiikan π′, joka on muuten identtinen politiikan π kanssa, mutta valitsee toiminnon a tilassa s, mikä tekee siitä alkuperäistä politiikkaa π paremman.
Politiikan parantamisen lause
Yllä kuvattua päättelyä voidaan yleistää politiikan parantamisen lauseeksi:
⟹qπ(s,π′(s))≥vπ(s)vπ′(s)≥vπ(s)∀s∈S∀s∈STämän lauseen todistus on suhteellisen yksinkertainen ja voidaan saavuttaa toistuvalla sijoituksella:
vπ(s)≤qπ(s,π′(s))=Eπ′[Rt+1+γvπ(St+1)∣St=s]≤Eπ′[Rt+1+γqπ(St+1,π′(St+1))∣St=s]=Eπ′[Rt+1+γEπ′[Rt+2+γvπ(St+2)]∣St=s]=Eπ′[Rt+1+γRt+2+γ2vπ(St+2)∣St=s]...≤Eπ′[Rt+1+γRt+2+γ2Rt+3+...∣St=s]=vπ′(s)Parannusstrategia
Vaikka tiettyjen tilojen toimintojen päivittäminen voi johtaa parannuksiin, on tehokkaampaa päivittää toiminnot kaikille tiloille samanaikaisesti. Erityisesti jokaiselle tilalle s valitaan toiminto a, joka maksimoi toimintojen arvon qπ(s,a):
π′(s)←aargmaxqπ(s,a)←aargmaxs′,r∑p(s′,r∣s,a)(r+γvπ(s′))missä argmax (lyhenne sanoista argument of the maximum) on operaattori, joka palauttaa muuttujan arvon, jolla annettu funktio saavuttaa maksimiarvonsa.
Tuloksena syntyvä ahne politiikka (greedy policy), jota merkitään π′, täyttää politiikan parantamisen lauseen ehdot rakenteensa ansiosta, mikä takaa, että π′ on vähintään yhtä hyvä kuin alkuperäinen politiikka π, ja yleensä parempi.
Jos π′ on yhtä hyvä kuin, mutta ei parempi kuin π, molemmat π′ ja π ovat optimaalisia politiikkoja, sillä niiden arvofunktiot ovat yhtäsuuret ja ne täyttävät Bellmanin optimaalisen yhtälön:
vπ(s)=amaxs′,r∑p(s′,r∣s,a)(r+γvπ(s′))Kiitos palautteestasi!