Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Arvon Iterointi | Dynaaminen Ohjelmointi
Vahvistusoppimisen Perusteet

bookArvon Iterointi

Vaikka policy iteration on tehokas menetelmä MDP-ongelmien ratkaisemiseen, siihen liittyy merkittävä haittapuoli: jokainen iteraatio sisältää erillisen policy evaluation -vaiheen. Kun policy evaluation suoritetaan iteraatiivisesti, se vaatii useita läpikäyntejä koko tila-avaruuden yli, mikä johtaa huomattavaan laskennalliseen kuormitukseen ja pidempiin laskenta-aikoihin.

Hyvä vaihtoehto on value iteration, menetelmä, joka yhdistää policy evaluationin ja policy improvementin yhdeksi vaiheeksi. Tämä menetelmä päivittää arvofunktion suoraan, kunnes se konvergoituu optimaaliseen arvofunktioon. Kun konvergenssi on saavutettu, optimaalinen politiikka voidaan johtaa suoraan tästä optimaalisesta arvofunktiosta.

Miten se toimii?

Value iteration toimii suorittamalla vain yhden varmistuksen policy evaluationin aikana ennen policy improvementia. Tämä johtaa seuraavaan päivityskaavaan:

vk+1(s)maxas,rp(s,rs,a)(r+γvk(s))sSv_{k+1}(s) \gets \max_a \sum_{s',r}p(s',r|s,a)\Bigl(r+\gamma v_k(s')\Bigr) \qquad \forall s \in S

Muuntaen Bellmanin optimaalisen yhtälön päivityssäännöksi, policy evaluation ja policy improvement yhdistetään yhdeksi vaiheeksi.

Pseudokoodi

question mark

Pseudokoodin perusteella, milloin arvoiterointi päättyy?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 3. Luku 8

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Awesome!

Completion rate improved to 2.7

bookArvon Iterointi

Pyyhkäise näyttääksesi valikon

Vaikka policy iteration on tehokas menetelmä MDP-ongelmien ratkaisemiseen, siihen liittyy merkittävä haittapuoli: jokainen iteraatio sisältää erillisen policy evaluation -vaiheen. Kun policy evaluation suoritetaan iteraatiivisesti, se vaatii useita läpikäyntejä koko tila-avaruuden yli, mikä johtaa huomattavaan laskennalliseen kuormitukseen ja pidempiin laskenta-aikoihin.

Hyvä vaihtoehto on value iteration, menetelmä, joka yhdistää policy evaluationin ja policy improvementin yhdeksi vaiheeksi. Tämä menetelmä päivittää arvofunktion suoraan, kunnes se konvergoituu optimaaliseen arvofunktioon. Kun konvergenssi on saavutettu, optimaalinen politiikka voidaan johtaa suoraan tästä optimaalisesta arvofunktiosta.

Miten se toimii?

Value iteration toimii suorittamalla vain yhden varmistuksen policy evaluationin aikana ennen policy improvementia. Tämä johtaa seuraavaan päivityskaavaan:

vk+1(s)maxas,rp(s,rs,a)(r+γvk(s))sSv_{k+1}(s) \gets \max_a \sum_{s',r}p(s',r|s,a)\Bigl(r+\gamma v_k(s')\Bigr) \qquad \forall s \in S

Muuntaen Bellmanin optimaalisen yhtälön päivityssäännöksi, policy evaluation ja policy improvement yhdistetään yhdeksi vaiheeksi.

Pseudokoodi

question mark

Pseudokoodin perusteella, milloin arvoiterointi päättyy?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 3. Luku 8
some-alt