Bellman-yhtälöt
Bellman-yhtälö on funktioyhtälö, joka määrittelee arvofunktion rekursiivisessa muodossa.
Määritelmän selvennykseksi:
- Funktioyhtälö on yhtälö, jonka ratkaisu on funktio. Bellman-yhtälön tapauksessa tämä ratkaisu on arvofunktio, jota varten yhtälö on muodostettu;
- Rekursiivinen muoto tarkoittaa, että nykyisen tilan arvo ilmaistaan tulevien tilojen arvojen avulla.
Yhteenvetona, Bellman-yhtälön ratkaiseminen antaa halutun arvofunktion, ja tämän yhtälön johtaminen edellyttää rekursiivisen suhteen tunnistamista nykyisten ja tulevien tilojen välillä.
Tilaarvofunktio
Muistutuksena tässä on tilan arvon funktio tiiviissä muodossa:
vπ(s)=Eπ[Gt∣St=s]Saadaksesi tämän arvon funktion Bellmanin yhtälön, laajennetaan yhtälön oikeaa puolta ja muodostetaan rekursiivinen yhteys:
vπ(s)=Eπ[Gt∣St=s]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s]=Eπ[Rt+1+γk=0∑∞γkRt+k+2∣St=s]=Eπ[Rt+1+γGt+1∣St=s]=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γEπ[Gt+1∣St+1=s′])=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γvπ(s′))Tämän ketjun viimeinen yhtälö on Bellmanin yhtälö tilan arvon funktiolle.
Intuitio
Tilan s arvoa määritettäessä:
- Otetaan huomioon kaikki mahdolliset toiminnot a, joita voit tehdä tästä tilasta, painotettuna sillä todennäköisyydellä, jolla valitset kyseisen toiminnon nykyisen politiikkasi π(a∣s) mukaan;
- Jokaiselle toiminnolle a tarkastellaan kaikkia mahdollisia seuraavia tiloja s′ ja palkkioita r, painotettuna niiden todennäköisyydellä p(s′,r∣s,a);
- Kullekin näistä lopputuloksista otetaan välitön palkkio r sekä diskontattu seuraavan tilan arvo γvπ(s′).
Yhteenlaskemalla kaikki nämä mahdollisuudet saadaan tilan s odotettu kokonaisarvo nykyisen politiikan mukaisesti.
Toimintoarvofunktio
Tässä on toimintoarvofunktio tiiviissä muodossa:
qπ(s,a)=Eπ[Gt∣St=s,At=a]Bellmanin yhtälön johtaminen tälle funktiolle on varsin samanlainen kuin edellisessä tapauksessa:
qπ(s,a)=Eπ[Gt∣St=s,At=a]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s,At=a]=Eπ[Rt+1+γk=0∑∞γkRt+k+2∣St=s,At=a]=Eπ[Rt+1+γGt+1∣St=s,At=a]=s′,r∑p(s′,r∣s,a)(r+γEπ[Gt+1∣St+1=s′])=s′,r∑p(s′,r∣s,a)(r+γa′∑π(a′∣s′)(Eπ[Gt+1∣St+1=s′,At+1=a′]))=s′,r∑p(s′,r∣s,a)(r+γa′∑π(a′∣s′)q(s′,a′))Tämän ketjun viimeinen yhtälö on Bellmanin yhtälö toimintoarvofunktiolle.
Intuitio
Tilapari-toimintoparin (s,a) arvon löytämiseksi:
- Otetaan huomioon kaikki mahdolliset seuraavat tilat s′ ja palkkiot r, painotettuna niiden todennäköisyydellä p(s′,r∣s,a);
- Jokaisessa näistä tapauksista lasketaan välitön palkkio r sekä seuraavan tilan diskontattu arvo;
- Seuraavan tilan s′ arvo lasketaan siten, että kaikille mahdollisille toiminnoille a′ tilasta s′ kerrotaan toimintoparin arvo q(s′,a′) todennäköisyydellä, jolla valitaan a′ tilassa s′ nykyisen politiikan π(a′∣s′) mukaisesti. Lopuksi summataan kaikki yhteen saadakseen lopullisen arvon.
Yhteenlaskemalla kaikki nämä mahdollisuudet saadaan tilapari-toimintoparin (s,a) odotettu kokonaisarvo nykyisen politiikan mukaisesti.
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
Can you explain the difference between the state value function and the action value function?
How does the Bellman equation help in reinforcement learning?
Can you provide a simple example illustrating the Bellman equation?
Awesome!
Completion rate improved to 2.7
Bellman-yhtälöt
Pyyhkäise näyttääksesi valikon
Bellman-yhtälö on funktioyhtälö, joka määrittelee arvofunktion rekursiivisessa muodossa.
Määritelmän selvennykseksi:
- Funktioyhtälö on yhtälö, jonka ratkaisu on funktio. Bellman-yhtälön tapauksessa tämä ratkaisu on arvofunktio, jota varten yhtälö on muodostettu;
- Rekursiivinen muoto tarkoittaa, että nykyisen tilan arvo ilmaistaan tulevien tilojen arvojen avulla.
Yhteenvetona, Bellman-yhtälön ratkaiseminen antaa halutun arvofunktion, ja tämän yhtälön johtaminen edellyttää rekursiivisen suhteen tunnistamista nykyisten ja tulevien tilojen välillä.
Tilaarvofunktio
Muistutuksena tässä on tilan arvon funktio tiiviissä muodossa:
vπ(s)=Eπ[Gt∣St=s]Saadaksesi tämän arvon funktion Bellmanin yhtälön, laajennetaan yhtälön oikeaa puolta ja muodostetaan rekursiivinen yhteys:
vπ(s)=Eπ[Gt∣St=s]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s]=Eπ[Rt+1+γk=0∑∞γkRt+k+2∣St=s]=Eπ[Rt+1+γGt+1∣St=s]=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γEπ[Gt+1∣St+1=s′])=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γvπ(s′))Tämän ketjun viimeinen yhtälö on Bellmanin yhtälö tilan arvon funktiolle.
Intuitio
Tilan s arvoa määritettäessä:
- Otetaan huomioon kaikki mahdolliset toiminnot a, joita voit tehdä tästä tilasta, painotettuna sillä todennäköisyydellä, jolla valitset kyseisen toiminnon nykyisen politiikkasi π(a∣s) mukaan;
- Jokaiselle toiminnolle a tarkastellaan kaikkia mahdollisia seuraavia tiloja s′ ja palkkioita r, painotettuna niiden todennäköisyydellä p(s′,r∣s,a);
- Kullekin näistä lopputuloksista otetaan välitön palkkio r sekä diskontattu seuraavan tilan arvo γvπ(s′).
Yhteenlaskemalla kaikki nämä mahdollisuudet saadaan tilan s odotettu kokonaisarvo nykyisen politiikan mukaisesti.
Toimintoarvofunktio
Tässä on toimintoarvofunktio tiiviissä muodossa:
qπ(s,a)=Eπ[Gt∣St=s,At=a]Bellmanin yhtälön johtaminen tälle funktiolle on varsin samanlainen kuin edellisessä tapauksessa:
qπ(s,a)=Eπ[Gt∣St=s,At=a]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s,At=a]=Eπ[Rt+1+γk=0∑∞γkRt+k+2∣St=s,At=a]=Eπ[Rt+1+γGt+1∣St=s,At=a]=s′,r∑p(s′,r∣s,a)(r+γEπ[Gt+1∣St+1=s′])=s′,r∑p(s′,r∣s,a)(r+γa′∑π(a′∣s′)(Eπ[Gt+1∣St+1=s′,At+1=a′]))=s′,r∑p(s′,r∣s,a)(r+γa′∑π(a′∣s′)q(s′,a′))Tämän ketjun viimeinen yhtälö on Bellmanin yhtälö toimintoarvofunktiolle.
Intuitio
Tilapari-toimintoparin (s,a) arvon löytämiseksi:
- Otetaan huomioon kaikki mahdolliset seuraavat tilat s′ ja palkkiot r, painotettuna niiden todennäköisyydellä p(s′,r∣s,a);
- Jokaisessa näistä tapauksista lasketaan välitön palkkio r sekä seuraavan tilan diskontattu arvo;
- Seuraavan tilan s′ arvo lasketaan siten, että kaikille mahdollisille toiminnoille a′ tilasta s′ kerrotaan toimintoparin arvo q(s′,a′) todennäköisyydellä, jolla valitaan a′ tilassa s′ nykyisen politiikan π(a′∣s′) mukaisesti. Lopuksi summataan kaikki yhteen saadakseen lopullisen arvon.
Yhteenlaskemalla kaikki nämä mahdollisuudet saadaan tilapari-toimintoparin (s,a) odotettu kokonaisarvo nykyisen politiikan mukaisesti.
Kiitos palautteestasi!