Bellman-yhtälöt
Bellman-yhtälö on funktioyhtälö, joka määrittelee arvofunktion rekursiivisessa muodossa.
Selvennyksenä määritelmälle:
- Funktioyhtälö on yhtälö, jonka ratkaisu on funktio. Bellman-yhtälön tapauksessa tämä ratkaisu on arvofunktio, jolle yhtälö on muodostettu;
- Rekursiivinen muoto tarkoittaa, että nykytilan arvo ilmaistaan tulevien tilojen arvojen avulla.
Yhteenvetona, Bellman-yhtälön ratkaiseminen antaa halutun arvofunktion, ja tämän yhtälön johtaminen edellyttää rekursiivisen riippuvuuden tunnistamista nykyisten ja tulevien tilojen välillä.
Tilakohtainen arvofunktio
Muistutuksena tässä on tilan arvofunktion tiivis muoto:
vπ(s)=Eπ[Gt∣St=s]Saadaksemme tämän arvofunktion Bellmanin yhtälön, laajennetaan yhtälön oikeaa puolta ja muodostetaan rekursiivinen yhteys:
vπ(s)=Eπ[Gt∣St=s]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s]=Eπ[Rt+1+γk=0∑∞γkRt+k+2∣St=s]=Eπ[Rt+1+γGt+1∣St=s]=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γEπ[Gt+1∣St+1=s′])=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γvπ(s′))Tämän ketjun viimeinen yhtälö on Bellmanin yhtälö tilan arvofunktiolle.
Intuitio
Tilan s arvon löytämiseksi:
- Otetaan huomioon kaikki mahdolliset toiminnot a, joita voit tehdä tästä tilasta, jokainen painotettuna sillä todennäköisyydellä, jolla valitset kyseisen toiminnon nykyisen politiikkasi π(a∣s) mukaisesti;
- Jokaiselle toiminnolle a otetaan huomioon kaikki mahdolliset seuraavat tilat s′ ja palkkiot r, painotettuna niiden todennäköisyydellä p(s′,r∣s,a);
- Kullekin näistä lopputuloksista lasketaan välitön palkkio r sekä seuraavan tilan diskontattu arvo γvπ(s′).
Yhteenlaskemalla kaikki nämä mahdollisuudet saadaan tilan s odotettu kokonaisarvo nykyisen politiikan mukaisesti.
Toimintoarvofunktio
Tässä on toimintoarvofunktio tiiviissä muodossa:
qπ(s,a)=Eπ[Gt∣St=s,At=a]Bellmanin yhtälön johtaminen tälle funktiolle on hyvin samankaltainen kuin edellisessä tapauksessa:
qπ(s,a)=Eπ[Gt∣St=s,At=a]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s,At=a]=Eπ[Rt+1+γk=0∑∞γkRt+k+2∣St=s,At=a]=Eπ[Rt+1+γGt+1∣St=s,At=a]=s′,r∑p(s′,r∣s,a)(r+γEπ[Gt+1∣St+1=s′])=s′,r∑p(s′,r∣s,a)(r+γa′∑π(a′∣s′)(Eπ[Gt+1∣St+1=s′,At+1=a′]))=s′,r∑p(s′,r∣s,a)(r+γa′∑π(a′∣s′)q(s′,a′))Tämän ketjun viimeinen yhtälö on Bellmanin yhtälö toimintoarvofunktiolle.
Intuitio
Tilapari-toimintoparin (s,a) arvon löytämiseksi:
- Otetaan huomioon kaikki mahdolliset seuraavat tilat s′ ja palkkiot r, painotettuna niiden todennäköisyydellä p(s′,r∣s,a);
- Jokaisessa näistä tapauksista lasketaan välitön palkkio r sekä seuraavan tilan diskontattu arvo;
- Seuraavan tilan s′ arvo lasketaan siten, että kaikille mahdollisille toiminnoille a′ tilasta s′ kerrotaan toimintoparin arvo q(s′,a′) todennäköisyydellä valita a′ tilassa s′ nykyisen politiikan π(a′∣s′) mukaisesti. Lopuksi summataan kaikki yhteen saadakseen lopullisen arvon.
Yhteenlaskemalla kaikki nämä mahdollisuudet saadaan tilapari-toimintoparin (s,a) odotettu kokonaisarvo nykyisen politiikan mukaisesti.
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
Awesome!
Completion rate improved to 2.7
Bellman-yhtälöt
Pyyhkäise näyttääksesi valikon
Bellman-yhtälö on funktioyhtälö, joka määrittelee arvofunktion rekursiivisessa muodossa.
Selvennyksenä määritelmälle:
- Funktioyhtälö on yhtälö, jonka ratkaisu on funktio. Bellman-yhtälön tapauksessa tämä ratkaisu on arvofunktio, jolle yhtälö on muodostettu;
- Rekursiivinen muoto tarkoittaa, että nykytilan arvo ilmaistaan tulevien tilojen arvojen avulla.
Yhteenvetona, Bellman-yhtälön ratkaiseminen antaa halutun arvofunktion, ja tämän yhtälön johtaminen edellyttää rekursiivisen riippuvuuden tunnistamista nykyisten ja tulevien tilojen välillä.
Tilakohtainen arvofunktio
Muistutuksena tässä on tilan arvofunktion tiivis muoto:
vπ(s)=Eπ[Gt∣St=s]Saadaksemme tämän arvofunktion Bellmanin yhtälön, laajennetaan yhtälön oikeaa puolta ja muodostetaan rekursiivinen yhteys:
vπ(s)=Eπ[Gt∣St=s]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s]=Eπ[Rt+1+γk=0∑∞γkRt+k+2∣St=s]=Eπ[Rt+1+γGt+1∣St=s]=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γEπ[Gt+1∣St+1=s′])=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γvπ(s′))Tämän ketjun viimeinen yhtälö on Bellmanin yhtälö tilan arvofunktiolle.
Intuitio
Tilan s arvon löytämiseksi:
- Otetaan huomioon kaikki mahdolliset toiminnot a, joita voit tehdä tästä tilasta, jokainen painotettuna sillä todennäköisyydellä, jolla valitset kyseisen toiminnon nykyisen politiikkasi π(a∣s) mukaisesti;
- Jokaiselle toiminnolle a otetaan huomioon kaikki mahdolliset seuraavat tilat s′ ja palkkiot r, painotettuna niiden todennäköisyydellä p(s′,r∣s,a);
- Kullekin näistä lopputuloksista lasketaan välitön palkkio r sekä seuraavan tilan diskontattu arvo γvπ(s′).
Yhteenlaskemalla kaikki nämä mahdollisuudet saadaan tilan s odotettu kokonaisarvo nykyisen politiikan mukaisesti.
Toimintoarvofunktio
Tässä on toimintoarvofunktio tiiviissä muodossa:
qπ(s,a)=Eπ[Gt∣St=s,At=a]Bellmanin yhtälön johtaminen tälle funktiolle on hyvin samankaltainen kuin edellisessä tapauksessa:
qπ(s,a)=Eπ[Gt∣St=s,At=a]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s,At=a]=Eπ[Rt+1+γk=0∑∞γkRt+k+2∣St=s,At=a]=Eπ[Rt+1+γGt+1∣St=s,At=a]=s′,r∑p(s′,r∣s,a)(r+γEπ[Gt+1∣St+1=s′])=s′,r∑p(s′,r∣s,a)(r+γa′∑π(a′∣s′)(Eπ[Gt+1∣St+1=s′,At+1=a′]))=s′,r∑p(s′,r∣s,a)(r+γa′∑π(a′∣s′)q(s′,a′))Tämän ketjun viimeinen yhtälö on Bellmanin yhtälö toimintoarvofunktiolle.
Intuitio
Tilapari-toimintoparin (s,a) arvon löytämiseksi:
- Otetaan huomioon kaikki mahdolliset seuraavat tilat s′ ja palkkiot r, painotettuna niiden todennäköisyydellä p(s′,r∣s,a);
- Jokaisessa näistä tapauksista lasketaan välitön palkkio r sekä seuraavan tilan diskontattu arvo;
- Seuraavan tilan s′ arvo lasketaan siten, että kaikille mahdollisille toiminnoille a′ tilasta s′ kerrotaan toimintoparin arvo q(s′,a′) todennäköisyydellä valita a′ tilassa s′ nykyisen politiikan π(a′∣s′) mukaisesti. Lopuksi summataan kaikki yhteen saadakseen lopullisen arvon.
Yhteenlaskemalla kaikki nämä mahdollisuudet saadaan tilapari-toimintoparin (s,a) odotettu kokonaisarvo nykyisen politiikan mukaisesti.
Kiitos palautteestasi!