Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Arvon Iterointi | Dynaaminen Ohjelmointi
Johdatus Vahvistusoppimiseen
course content

Kurssisisältö

Johdatus Vahvistusoppimiseen

Johdatus Vahvistusoppimiseen

1. RL:n Ydinteoria
2. Moniaseinen Bandiittiongelma
3. Dynaaminen Ohjelmointi
4. Monte Carlo -Menetelmät
5. Aikaisen Eron Oppiminen

book
Arvon Iterointi

Vaikka politiikan iterointi on tehokas menetelmä MDP-ongelmien ratkaisemiseen, siinä on merkittävä haittapuoli: jokainen iterointi sisältää erillisen politiikan arviointi -vaiheen. Kun politiikan arviointi suoritetaan iteratiivisesti, se vaatii useita läpikäyntejä koko tila-avaruuden yli, mikä johtaa huomattavaan laskennalliseen kuormitukseen ja pidempiin laskenta-aikoihin.

Hyvä vaihtoehto on arvoiterointi (value iteration), menetelmä, joka yhdistää politiikan arvioinnin ja politiikan parantamisen yhdeksi vaiheeksi. Tässä menetelmässä arvofunktiota päivitetään suoraan, kunnes se konvergoituu optimaaliseen arvofunktioon. Kun konvergenssi on saavutettu, optimaalinen politiikka voidaan johtaa suoraan tästä optimaalisesta arvofunktiosta.

Miten se toimii?

Arvoiterointi toimii suorittamalla vain yhden päivityksen politiikan arvioinnin aikana ennen politiikan parantamista. Tämä johtaa seuraavaan päivityskaavaan:

vk+1(s)maxas,rp(s,rs,a)(r+γvk(s))sSv_{k+1}(s) \gets \max_a \sum_{s',r}p(s',r|s,a)\Bigl(r+\gamma v_k(s')\Bigr) \qquad \forall s \in S

Muuntaen Bellmanin optimaalisen yhtälön päivityssäännöksi, politiikan arviointi ja politiikan parantaminen yhdistetään yhdeksi vaiheeksi.

Pseudokoodi

question mark

Pseudokoodin perusteella, milloin arvoiterointi päättyy?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 3. Luku 8

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

course content

Kurssisisältö

Johdatus Vahvistusoppimiseen

Johdatus Vahvistusoppimiseen

1. RL:n Ydinteoria
2. Moniaseinen Bandiittiongelma
3. Dynaaminen Ohjelmointi
4. Monte Carlo -Menetelmät
5. Aikaisen Eron Oppiminen

book
Arvon Iterointi

Vaikka politiikan iterointi on tehokas menetelmä MDP-ongelmien ratkaisemiseen, siinä on merkittävä haittapuoli: jokainen iterointi sisältää erillisen politiikan arviointi -vaiheen. Kun politiikan arviointi suoritetaan iteratiivisesti, se vaatii useita läpikäyntejä koko tila-avaruuden yli, mikä johtaa huomattavaan laskennalliseen kuormitukseen ja pidempiin laskenta-aikoihin.

Hyvä vaihtoehto on arvoiterointi (value iteration), menetelmä, joka yhdistää politiikan arvioinnin ja politiikan parantamisen yhdeksi vaiheeksi. Tässä menetelmässä arvofunktiota päivitetään suoraan, kunnes se konvergoituu optimaaliseen arvofunktioon. Kun konvergenssi on saavutettu, optimaalinen politiikka voidaan johtaa suoraan tästä optimaalisesta arvofunktiosta.

Miten se toimii?

Arvoiterointi toimii suorittamalla vain yhden päivityksen politiikan arvioinnin aikana ennen politiikan parantamista. Tämä johtaa seuraavaan päivityskaavaan:

vk+1(s)maxas,rp(s,rs,a)(r+γvk(s))sSv_{k+1}(s) \gets \max_a \sum_{s',r}p(s',r|s,a)\Bigl(r+\gamma v_k(s')\Bigr) \qquad \forall s \in S

Muuntaen Bellmanin optimaalisen yhtälön päivityssäännöksi, politiikan arviointi ja politiikan parantaminen yhdistetään yhdeksi vaiheeksi.

Pseudokoodi

question mark

Pseudokoodin perusteella, milloin arvoiterointi päättyy?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 3. Luku 8
some-alt