Kurssisisältö
Johdatus Vahvistusoppimiseen
Johdatus Vahvistusoppimiseen
Bellman-yhtälöt
Bellman-yhtälö on funktioyhtälö, joka määrittelee arvofunktion rekursiivisessa muodossa.
Selvennyksenä määritelmälle:
- Funktioyhtälö on yhtälö, jonka ratkaisu on funktio. Bellman-yhtälön tapauksessa tämä ratkaisu on arvofunktio, jolle yhtälö on muodostettu;
- Rekursiivinen muoto tarkoittaa, että nykytilan arvo ilmaistaan tulevien tilojen arvojen avulla.
Yhteenvetona, Bellman-yhtälön ratkaiseminen antaa halutun arvofunktion, ja tämän yhtälön johtaminen edellyttää rekursiivisen riippuvuuden tunnistamista nykyisten ja tulevien tilojen välillä.
Tilakohtainen arvofunktio
Muistutuksena tässä on tilan arvofunktion tiivis muoto:
Saadaksemme tämän arvofunktion Bellmanin yhtälön, laajennetaan yhtälön oikeaa puolta ja muodostetaan rekursiivinen yhteys:
Tämän ketjun viimeinen yhtälö on Bellmanin yhtälö tilan arvofunktiolle.
Intuitio
Tilan arvon löytämiseksi:
- Otetaan huomioon kaikki mahdolliset toiminnot , joita voit tehdä tästä tilasta, jokainen painotettuna sillä todennäköisyydellä, jolla valitset kyseisen toiminnon nykyisen politiikkasi mukaisesti;
- Jokaiselle toiminnolle otetaan huomioon kaikki mahdolliset seuraavat tilat ja palkkiot , painotettuna niiden todennäköisyydellä ;
- Kullekin näistä lopputuloksista lasketaan välitön palkkio sekä seuraavan tilan diskontattu arvo .
Yhteenlaskemalla kaikki nämä mahdollisuudet saadaan tilan odotettu kokonaisarvo nykyisen politiikan mukaisesti.
Toimintoarvofunktio
Tässä on toimintoarvofunktio tiiviissä muodossa:
Bellmanin yhtälön johtaminen tälle funktiolle on hyvin samankaltainen kuin edellisessä tapauksessa:
Tämän ketjun viimeinen yhtälö on Bellmanin yhtälö toimintoarvofunktiolle.
Intuitio
Tilapari-toimintoparin arvon löytämiseksi:
- Otetaan huomioon kaikki mahdolliset seuraavat tilat ja palkkiot , painotettuna niiden todennäköisyydellä ;
- Jokaisessa näistä tapauksista lasketaan välitön palkkio sekä seuraavan tilan diskontattu arvo;
- Seuraavan tilan arvo lasketaan siten, että kaikille mahdollisille toiminnoille tilasta kerrotaan toimintoparin arvo todennäköisyydellä valita tilassa nykyisen politiikan mukaisesti. Lopuksi summataan kaikki yhteen saadakseen lopullisen arvon.
Yhteenlaskemalla kaikki nämä mahdollisuudet saadaan tilapari-toimintoparin odotettu kokonaisarvo nykyisen politiikan mukaisesti.
Kiitos palautteestasi!