Bellman-yhtälöt
Bellman-yhtälö on funktioyhtälö, joka määrittelee arvofunktion rekursiivisessa muodossa.
Selvennyksenä määritelmälle:
- Funktioyhtälö on yhtälö, jonka ratkaisu on funktio. Bellman-yhtälön tapauksessa tämä ratkaisu on arvofunktio, jolle yhtälö on muodostettu;
- Rekursiivinen muoto tarkoittaa, että nykytilan arvo ilmaistaan tulevien tilojen arvojen avulla.
Yhteenvetona, Bellman-yhtälön ratkaiseminen antaa halutun arvofunktion, ja tämän yhtälön johtaminen edellyttää rekursiivisen riippuvuuden tunnistamista nykyisten ja tulevien tilojen välillä.
Tilakohtainen arvofunktio
Muistutuksena tässä on tilan arvofunktion tiivis muoto:
vπ(s)=Eπ[Gt∣St=s]Saadaksemme tämän arvofunktion Bellmanin yhtälön, laajennetaan yhtälön oikeaa puolta ja muodostetaan rekursiivinen yhteys:
vπ(s)=Eπ[Gt∣St=s]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s]=Eπ[Rt+1+γk=0∑∞γkRt+k+2∣St=s]=Eπ[Rt+1+γGt+1∣St=s]=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γEπ[Gt+1∣St+1=s′])=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γvπ(s′))Tämän ketjun viimeinen yhtälö on Bellmanin yhtälö tilan arvofunktiolle.
Intuitio
Tilan s arvon löytämiseksi:
- Otetaan huomioon kaikki mahdolliset toiminnot a, joita voit tehdä tästä tilasta, jokainen painotettuna sillä todennäköisyydellä, jolla valitset kyseisen toiminnon nykyisen politiikkasi π(a∣s) mukaisesti;
- Jokaiselle toiminnolle a otetaan huomioon kaikki mahdolliset seuraavat tilat s′ ja palkkiot r, painotettuna niiden todennäköisyydellä p(s′,r∣s,a);
- Kullekin näistä lopputuloksista lasketaan välitön palkkio r sekä seuraavan tilan diskontattu arvo γvπ(s′).
Yhteenlaskemalla kaikki nämä mahdollisuudet saadaan tilan s odotettu kokonaisarvo nykyisen politiikan mukaisesti.
Toimintoarvofunktio
Tässä on toimintoarvofunktio tiiviissä muodossa:
qπ(s,a)=Eπ[Gt∣St=s,At=a]Bellmanin yhtälön johtaminen tälle funktiolle on hyvin samankaltainen kuin edellisessä tapauksessa:
qπ(s,a)=Eπ[Gt∣St=s,At=a]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s,At=a]=Eπ[Rt+1+γk=0∑∞γkRt+k+2∣St=s,At=a]=Eπ[Rt+1+γGt+1∣St=s,At=a]=s′,r∑p(s′,r∣s,a)(r+γEπ[Gt+1∣St+1=s′])=s′,r∑p(s′,r∣s,a)(r+γa′∑π(a′∣s′)(Eπ[Gt+1∣St+1=s′,At+1=a′]))=s′,r∑p(s′,r∣s,a)(r+γa′∑π(a′∣s′)q(s′,a′))Tämän ketjun viimeinen yhtälö on Bellmanin yhtälö toimintoarvofunktiolle.
Intuitio
Tilapari-toimintoparin (s,a) arvon löytämiseksi:
- Otetaan huomioon kaikki mahdolliset seuraavat tilat s′ ja palkkiot r, painotettuna niiden todennäköisyydellä p(s′,r∣s,a);
- Jokaisessa näistä tapauksista lasketaan välitön palkkio r sekä seuraavan tilan diskontattu arvo;
- Seuraavan tilan s′ arvo lasketaan siten, että kaikille mahdollisille toiminnoille a′ tilasta s′ kerrotaan toimintoparin arvo q(s′,a′) todennäköisyydellä valita a′ tilassa s′ nykyisen politiikan π(a′∣s′) mukaisesti. Lopuksi summataan kaikki yhteen saadakseen lopullisen arvon.
Yhteenlaskemalla kaikki nämä mahdollisuudet saadaan tilapari-toimintoparin (s,a) odotettu kokonaisarvo nykyisen politiikan mukaisesti.
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
Can you explain the difference between the state value function and the action value function?
How does the Bellman equation help in reinforcement learning?
Can you provide a simple example illustrating the Bellman equation?
Awesome!
Completion rate improved to 2.7
Bellman-yhtälöt
Pyyhkäise näyttääksesi valikon
Bellman-yhtälö on funktioyhtälö, joka määrittelee arvofunktion rekursiivisessa muodossa.
Selvennyksenä määritelmälle:
- Funktioyhtälö on yhtälö, jonka ratkaisu on funktio. Bellman-yhtälön tapauksessa tämä ratkaisu on arvofunktio, jolle yhtälö on muodostettu;
- Rekursiivinen muoto tarkoittaa, että nykytilan arvo ilmaistaan tulevien tilojen arvojen avulla.
Yhteenvetona, Bellman-yhtälön ratkaiseminen antaa halutun arvofunktion, ja tämän yhtälön johtaminen edellyttää rekursiivisen riippuvuuden tunnistamista nykyisten ja tulevien tilojen välillä.
Tilakohtainen arvofunktio
Muistutuksena tässä on tilan arvofunktion tiivis muoto:
vπ(s)=Eπ[Gt∣St=s]Saadaksemme tämän arvofunktion Bellmanin yhtälön, laajennetaan yhtälön oikeaa puolta ja muodostetaan rekursiivinen yhteys:
vπ(s)=Eπ[Gt∣St=s]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s]=Eπ[Rt+1+γk=0∑∞γkRt+k+2∣St=s]=Eπ[Rt+1+γGt+1∣St=s]=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γEπ[Gt+1∣St+1=s′])=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γvπ(s′))Tämän ketjun viimeinen yhtälö on Bellmanin yhtälö tilan arvofunktiolle.
Intuitio
Tilan s arvon löytämiseksi:
- Otetaan huomioon kaikki mahdolliset toiminnot a, joita voit tehdä tästä tilasta, jokainen painotettuna sillä todennäköisyydellä, jolla valitset kyseisen toiminnon nykyisen politiikkasi π(a∣s) mukaisesti;
- Jokaiselle toiminnolle a otetaan huomioon kaikki mahdolliset seuraavat tilat s′ ja palkkiot r, painotettuna niiden todennäköisyydellä p(s′,r∣s,a);
- Kullekin näistä lopputuloksista lasketaan välitön palkkio r sekä seuraavan tilan diskontattu arvo γvπ(s′).
Yhteenlaskemalla kaikki nämä mahdollisuudet saadaan tilan s odotettu kokonaisarvo nykyisen politiikan mukaisesti.
Toimintoarvofunktio
Tässä on toimintoarvofunktio tiiviissä muodossa:
qπ(s,a)=Eπ[Gt∣St=s,At=a]Bellmanin yhtälön johtaminen tälle funktiolle on hyvin samankaltainen kuin edellisessä tapauksessa:
qπ(s,a)=Eπ[Gt∣St=s,At=a]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s,At=a]=Eπ[Rt+1+γk=0∑∞γkRt+k+2∣St=s,At=a]=Eπ[Rt+1+γGt+1∣St=s,At=a]=s′,r∑p(s′,r∣s,a)(r+γEπ[Gt+1∣St+1=s′])=s′,r∑p(s′,r∣s,a)(r+γa′∑π(a′∣s′)(Eπ[Gt+1∣St+1=s′,At+1=a′]))=s′,r∑p(s′,r∣s,a)(r+γa′∑π(a′∣s′)q(s′,a′))Tämän ketjun viimeinen yhtälö on Bellmanin yhtälö toimintoarvofunktiolle.
Intuitio
Tilapari-toimintoparin (s,a) arvon löytämiseksi:
- Otetaan huomioon kaikki mahdolliset seuraavat tilat s′ ja palkkiot r, painotettuna niiden todennäköisyydellä p(s′,r∣s,a);
- Jokaisessa näistä tapauksista lasketaan välitön palkkio r sekä seuraavan tilan diskontattu arvo;
- Seuraavan tilan s′ arvo lasketaan siten, että kaikille mahdollisille toiminnoille a′ tilasta s′ kerrotaan toimintoparin arvo q(s′,a′) todennäköisyydellä valita a′ tilassa s′ nykyisen politiikan π(a′∣s′) mukaisesti. Lopuksi summataan kaikki yhteen saadakseen lopullisen arvon.
Yhteenlaskemalla kaikki nämä mahdollisuudet saadaan tilapari-toimintoparin (s,a) odotettu kokonaisarvo nykyisen politiikan mukaisesti.
Kiitos palautteestasi!