Arvon Iterointi
Vaikka policy iteration on tehokas menetelmä MDP-ongelmien ratkaisemiseen, siihen liittyy merkittävä haittapuoli: jokainen iteraatio sisältää erillisen policy evaluation -vaiheen. Kun policy evaluation suoritetaan iteraatiivisesti, se vaatii useita läpikäyntejä koko tila-avaruuden yli, mikä johtaa huomattavaan laskennalliseen kuormitukseen ja pidempiin laskenta-aikoihin.
Hyvä vaihtoehto on value iteration, menetelmä, joka yhdistää policy evaluationin ja policy improvementin yhdeksi vaiheeksi. Tämä menetelmä päivittää arvofunktion suoraan, kunnes se konvergoituu optimaaliseen arvofunktioon. Kun konvergenssi on saavutettu, optimaalinen politiikka voidaan johtaa suoraan tästä optimaalisesta arvofunktiosta.
Miten se toimii?
Value iteration toimii suorittamalla vain yhden varmistuksen policy evaluationin aikana ennen policy improvementia. Tämä johtaa seuraavaan päivityskaavaan:
vk+1(s)←amaxs′,r∑p(s′,r∣s,a)(r+γvk(s′))∀s∈SMuuntaen Bellmanin optimaalisen yhtälön päivityssäännöksi, policy evaluation ja policy improvement yhdistetään yhdeksi vaiheeksi.
Pseudokoodi
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
Awesome!
Completion rate improved to 2.7
Arvon Iterointi
Pyyhkäise näyttääksesi valikon
Vaikka policy iteration on tehokas menetelmä MDP-ongelmien ratkaisemiseen, siihen liittyy merkittävä haittapuoli: jokainen iteraatio sisältää erillisen policy evaluation -vaiheen. Kun policy evaluation suoritetaan iteraatiivisesti, se vaatii useita läpikäyntejä koko tila-avaruuden yli, mikä johtaa huomattavaan laskennalliseen kuormitukseen ja pidempiin laskenta-aikoihin.
Hyvä vaihtoehto on value iteration, menetelmä, joka yhdistää policy evaluationin ja policy improvementin yhdeksi vaiheeksi. Tämä menetelmä päivittää arvofunktion suoraan, kunnes se konvergoituu optimaaliseen arvofunktioon. Kun konvergenssi on saavutettu, optimaalinen politiikka voidaan johtaa suoraan tästä optimaalisesta arvofunktiosta.
Miten se toimii?
Value iteration toimii suorittamalla vain yhden varmistuksen policy evaluationin aikana ennen policy improvementia. Tämä johtaa seuraavaan päivityskaavaan:
vk+1(s)←amaxs′,r∑p(s′,r∣s,a)(r+γvk(s′))∀s∈SMuuntaen Bellmanin optimaalisen yhtälön päivityssäännöksi, policy evaluation ja policy improvement yhdistetään yhdeksi vaiheeksi.
Pseudokoodi
Kiitos palautteestasi!