Optimaalisuusehdot
Edellisessä luvussa opit Bellmanin yhtälöistä tilan arvo- ja tila-toimintoarvofunktioille. Nämä yhtälöt kuvaavat, kuinka tilan arvot voidaan määritellä rekursiivisesti muiden tilojen arvojen kautta, ja arvot riippuvat annetusta politiikasta. Kaikki politiikat eivät kuitenkaan ole yhtä tehokkaita. Arvofunktiot muodostavat itse asiassa osittaisjärjestyksen politiikoille, mikä voidaan esittää seuraavasti:
π≥π′⟺vπ(s)≥vπ′(s)∀s∈SPolitiikka π on parempi tai yhtä hyvä kuin politiikka π′, jos kaikissa mahdollisissa tiloissa politiikan π odotettu tuotto ei ole pienempi kuin politiikan π′ odotettu tuotto.
Osittaisjärjestys noudattaa tavanomaisia järjestyssääntöjä, mutta ei vaadi kaikkien parien vertailua. Tässä tapauksessa voimme järjestää kaksi politiikkaa vain, jos ne tuottavat samat tulokset tai toinen selvästi ylittää toisen. Kaikissa muissa tapauksissa politiikat jäävät vertaamattomiksi.
Optimaalinen politiikka
Jokaisessa MDP:ssä on olemassa vähintään yksi politiikka, joka on yhtä hyvä tai parempi kuin kaikki muut politiikat. Tätä politiikkaa kutsutaan optimaaliseksi politiikaksi π∗. Vaikka optimaalisia politiikkoja voi olla useita, niitä kaikkia merkitään π∗.
Miksi optimaalinen politiikka on aina olemassa?
Saatat miettiä, miksi optimaalinen politiikka aina on olemassa mille tahansa MDP:lle. Tämä on erinomainen kysymys, ja sen taustalla oleva intuitio on yllättävän yksinkertainen. Muista, että tilat MDP:ssä kuvaavat täysin ympäristön tilan. Tämä tarkoittaa, että jokainen tila on riippumaton muista: yhdessä tilassa valittu toiminto ei vaikuta muiden tilojen palkkioihin tai lopputuloksiin. Valitsemalla siis optimaalisen toiminnon jokaisessa tilassa erikseen, päädyt luonnollisesti kokonaisuudessaan parhaaseen toimintojen sarjaan koko prosessin aikana. Ja tämä optimaalisten toimintojen joukko jokaisessa tilassa muodostaa optimaalisen politiikan.
Lisäksi on aina olemassa vähintään yksi politiikka, joka on sekä optimaalinen että deterministinen. Jos jossakin tilassa s kaksi toimintoa a ja a′ tuottavat saman odotetun tuoton, yhden niistä valitseminen ei vaikuta politiikan optimaalisuuteen. Soveltamalla tätä periaatetta jokaiseen tilaan politiikasta tulee deterministinen säilyttäen samalla sen optimaalisuuden.
Optimaaliset arvofunktiot
Optimaaliset politiikat jakavat samat arvofunktiot — tämä käy ilmi, kun tarkastellaan, miten politiikkoja verrataan. Tämä tarkoittaa, että optimaaliset politiikat jakavat sekä tilan arvon funktion että toiminnon arvon funktion.
Lisäksi optimaalisilla arvofunktioilla on omat Bellmanin yhtälönsä, jotka voidaan kirjoittaa viittaamatta mihinkään tiettyyn politiikkaan. Näitä yhtälöitä kutsutaan Bellmanin optimaalisen yhtälöiksi.
Optimaalinen tilan arvon funktio
Optimaalinen tilan arvon funktio V∗ (tai v∗) kuvaa suurimman odotetun tuoton, joka on saavutettavissa tietyssä tilassa noudattamalla optimaalista politiikkaa.
Se voidaan määritellä matemaattisesti seuraavasti:
v∗(s)=πmaxvπ(s)=Eπ∗[Gt∣St=s]Bellmanin optimaalinen yhtälö tälle arvotoiminnolle voidaan johtaa seuraavasti:
v∗(s)=a∑π∗(a∣s)s′,r∑p(s′,r∣s,a)(r+γv∗(s′))=amaxs′,r∑p(s′,r∣s,a)(r+γv∗(s′))Intuitio
Kuten jo tiedät, on aina olemassa vähintään yksi politiikka, joka on sekä optimaalinen että deterministinen. Tällainen politiikka valitsee jokaisessa tilassa johdonmukaisesti yhden tietyn toimenpiteen, joka maksimoi odotetun tuoton. Tämän vuoksi tämän optimaalisen toimenpiteen valitsemisen todennäköisyys on aina 1, ja minkä tahansa muun toimenpiteen valitsemisen todennäköisyys on 0. Tämän perusteella alkuperäinen Bellmanin yhtälö ei enää tarvitse summasymbolia. Koska tiedämme valitsevamme aina parhaan mahdollisen toimenpiteen, voimme yksinkertaisesti korvata summan ottamalla maksimin kaikista mahdollisista toimenpiteistä.
Optimaalinen toimintojen arvofunktio
Optimaalinen toimintojen arvofunktio Q∗ (tai q∗) kuvaa suurimman odotetun tuoton, joka voidaan saavuttaa suorittamalla tietty toiminto tietyssä tilassa ja noudattamalla optimaalista politiikkaa sen jälkeen.
Se voidaan määritellä matemaattisesti seuraavasti:
q∗(s,a)=πmaxqπ(s,a)=Eπ∗[Gt∣St=s,At=a]Bellmanin optimaalisuusyhtälö tälle arvofunktiolle voidaan johtaa seuraavasti:
q∗(s,a)=s′,r∑p(s′,r∣s,a)(r+γa′∑π∗(a′∣s′)q∗(s′,a′))=s′,r∑p(s′,r∣s,a)(r+γa′maxq∗(s′,a′))Intuitio
Samoin kuin tilan arvofunktiossa, summa voidaan korvata ottamalla maksimi kaikista mahdollisista toiminnoista.
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
Can you explain the difference between deterministic and stochastic policies?
How do Bellman optimality equations help in finding the optimal policy?
Can you provide an example of how to compute the optimal value function for a simple MDP?
Awesome!
Completion rate improved to 2.7
Optimaalisuusehdot
Pyyhkäise näyttääksesi valikon
Edellisessä luvussa opit Bellmanin yhtälöistä tilan arvo- ja tila-toimintoarvofunktioille. Nämä yhtälöt kuvaavat, kuinka tilan arvot voidaan määritellä rekursiivisesti muiden tilojen arvojen kautta, ja arvot riippuvat annetusta politiikasta. Kaikki politiikat eivät kuitenkaan ole yhtä tehokkaita. Arvofunktiot muodostavat itse asiassa osittaisjärjestyksen politiikoille, mikä voidaan esittää seuraavasti:
π≥π′⟺vπ(s)≥vπ′(s)∀s∈SPolitiikka π on parempi tai yhtä hyvä kuin politiikka π′, jos kaikissa mahdollisissa tiloissa politiikan π odotettu tuotto ei ole pienempi kuin politiikan π′ odotettu tuotto.
Osittaisjärjestys noudattaa tavanomaisia järjestyssääntöjä, mutta ei vaadi kaikkien parien vertailua. Tässä tapauksessa voimme järjestää kaksi politiikkaa vain, jos ne tuottavat samat tulokset tai toinen selvästi ylittää toisen. Kaikissa muissa tapauksissa politiikat jäävät vertaamattomiksi.
Optimaalinen politiikka
Jokaisessa MDP:ssä on olemassa vähintään yksi politiikka, joka on yhtä hyvä tai parempi kuin kaikki muut politiikat. Tätä politiikkaa kutsutaan optimaaliseksi politiikaksi π∗. Vaikka optimaalisia politiikkoja voi olla useita, niitä kaikkia merkitään π∗.
Miksi optimaalinen politiikka on aina olemassa?
Saatat miettiä, miksi optimaalinen politiikka aina on olemassa mille tahansa MDP:lle. Tämä on erinomainen kysymys, ja sen taustalla oleva intuitio on yllättävän yksinkertainen. Muista, että tilat MDP:ssä kuvaavat täysin ympäristön tilan. Tämä tarkoittaa, että jokainen tila on riippumaton muista: yhdessä tilassa valittu toiminto ei vaikuta muiden tilojen palkkioihin tai lopputuloksiin. Valitsemalla siis optimaalisen toiminnon jokaisessa tilassa erikseen, päädyt luonnollisesti kokonaisuudessaan parhaaseen toimintojen sarjaan koko prosessin aikana. Ja tämä optimaalisten toimintojen joukko jokaisessa tilassa muodostaa optimaalisen politiikan.
Lisäksi on aina olemassa vähintään yksi politiikka, joka on sekä optimaalinen että deterministinen. Jos jossakin tilassa s kaksi toimintoa a ja a′ tuottavat saman odotetun tuoton, yhden niistä valitseminen ei vaikuta politiikan optimaalisuuteen. Soveltamalla tätä periaatetta jokaiseen tilaan politiikasta tulee deterministinen säilyttäen samalla sen optimaalisuuden.
Optimaaliset arvofunktiot
Optimaaliset politiikat jakavat samat arvofunktiot — tämä käy ilmi, kun tarkastellaan, miten politiikkoja verrataan. Tämä tarkoittaa, että optimaaliset politiikat jakavat sekä tilan arvon funktion että toiminnon arvon funktion.
Lisäksi optimaalisilla arvofunktioilla on omat Bellmanin yhtälönsä, jotka voidaan kirjoittaa viittaamatta mihinkään tiettyyn politiikkaan. Näitä yhtälöitä kutsutaan Bellmanin optimaalisen yhtälöiksi.
Optimaalinen tilan arvon funktio
Optimaalinen tilan arvon funktio V∗ (tai v∗) kuvaa suurimman odotetun tuoton, joka on saavutettavissa tietyssä tilassa noudattamalla optimaalista politiikkaa.
Se voidaan määritellä matemaattisesti seuraavasti:
v∗(s)=πmaxvπ(s)=Eπ∗[Gt∣St=s]Bellmanin optimaalinen yhtälö tälle arvotoiminnolle voidaan johtaa seuraavasti:
v∗(s)=a∑π∗(a∣s)s′,r∑p(s′,r∣s,a)(r+γv∗(s′))=amaxs′,r∑p(s′,r∣s,a)(r+γv∗(s′))Intuitio
Kuten jo tiedät, on aina olemassa vähintään yksi politiikka, joka on sekä optimaalinen että deterministinen. Tällainen politiikka valitsee jokaisessa tilassa johdonmukaisesti yhden tietyn toimenpiteen, joka maksimoi odotetun tuoton. Tämän vuoksi tämän optimaalisen toimenpiteen valitsemisen todennäköisyys on aina 1, ja minkä tahansa muun toimenpiteen valitsemisen todennäköisyys on 0. Tämän perusteella alkuperäinen Bellmanin yhtälö ei enää tarvitse summasymbolia. Koska tiedämme valitsevamme aina parhaan mahdollisen toimenpiteen, voimme yksinkertaisesti korvata summan ottamalla maksimin kaikista mahdollisista toimenpiteistä.
Optimaalinen toimintojen arvofunktio
Optimaalinen toimintojen arvofunktio Q∗ (tai q∗) kuvaa suurimman odotetun tuoton, joka voidaan saavuttaa suorittamalla tietty toiminto tietyssä tilassa ja noudattamalla optimaalista politiikkaa sen jälkeen.
Se voidaan määritellä matemaattisesti seuraavasti:
q∗(s,a)=πmaxqπ(s,a)=Eπ∗[Gt∣St=s,At=a]Bellmanin optimaalisuusyhtälö tälle arvofunktiolle voidaan johtaa seuraavasti:
q∗(s,a)=s′,r∑p(s′,r∣s,a)(r+γa′∑π∗(a′∣s′)q∗(s′,a′))=s′,r∑p(s′,r∣s,a)(r+γa′maxq∗(s′,a′))Intuitio
Samoin kuin tilan arvofunktiossa, summa voidaan korvata ottamalla maksimi kaikista mahdollisista toiminnoista.
Kiitos palautteestasi!