Kurssisisältö
Johdatus Vahvistusoppimiseen
Johdatus Vahvistusoppimiseen
Arvon Iterointi
Vaikka politiikan iterointi on tehokas menetelmä MDP-ongelmien ratkaisemiseen, siinä on merkittävä haittapuoli: jokainen iterointi sisältää erillisen politiikan arviointi -vaiheen. Kun politiikan arviointi suoritetaan iteratiivisesti, se vaatii useita läpikäyntejä koko tila-avaruuden yli, mikä johtaa huomattavaan laskennalliseen kuormitukseen ja pidempiin laskenta-aikoihin.
Hyvä vaihtoehto on arvoiterointi (value iteration), menetelmä, joka yhdistää politiikan arvioinnin ja politiikan parantamisen yhdeksi vaiheeksi. Tässä menetelmässä arvofunktiota päivitetään suoraan, kunnes se konvergoituu optimaaliseen arvofunktioon. Kun konvergenssi on saavutettu, optimaalinen politiikka voidaan johtaa suoraan tästä optimaalisesta arvofunktiosta.
Miten se toimii?
Arvoiterointi toimii suorittamalla vain yhden päivityksen politiikan arvioinnin aikana ennen politiikan parantamista. Tämä johtaa seuraavaan päivityskaavaan:
Muuntaen Bellmanin optimaalisen yhtälön päivityssäännöksi, politiikan arviointi ja politiikan parantaminen yhdistetään yhdeksi vaiheeksi.
Pseudokoodi
Kiitos palautteestasi!