Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Politiikan Iterointi | Dynaaminen Ohjelmointi
Johdatus Vahvistusoppimiseen
course content

Kurssisisältö

Johdatus Vahvistusoppimiseen

Johdatus Vahvistusoppimiseen

1. RL:n Ydinteoria
2. Moniaseinen Bandiittiongelma
3. Dynaaminen Ohjelmointi
4. Monte Carlo -Menetelmät
5. Aikaisen Eron Oppiminen

book
Politiikan Iterointi

Policy iterationin perusajatus on yksinkertainen:

  1. Valitaan jokin alkuperäinen π\pi ja vv;
  2. Käytetään politiikan arviointia päivittämään vv, kunnes se on yhdenmukainen π\pi:n kanssa;
  3. Käytetään politiikan parantamista päivittämään π\pi, kunnes se on ahne suhteessa vv:hen;
  4. Toistetaan vaiheet 2-3, kunnes konvergenssi saavutetaan.

Tässä menetelmässä ei tehdä osittaisia päivityksiä:

  • Politiikan arvioinnin aikana arvot päivitetään jokaiselle tilalle, kunnes ne ovat yhdenmukaisia nykyisen politiikan kanssa;
  • Politiikan parantamisen aikana politiikka tehdään ahneeksi arvotoimintoa kohtaan.

Pseudokoodi

question mark

Pseudokoodin perusteella, mikä ehto aiheuttaa policy iterationin ulomman silmukan pysähtymisen?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 3. Luku 7

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

course content

Kurssisisältö

Johdatus Vahvistusoppimiseen

Johdatus Vahvistusoppimiseen

1. RL:n Ydinteoria
2. Moniaseinen Bandiittiongelma
3. Dynaaminen Ohjelmointi
4. Monte Carlo -Menetelmät
5. Aikaisen Eron Oppiminen

book
Politiikan Iterointi

Policy iterationin perusajatus on yksinkertainen:

  1. Valitaan jokin alkuperäinen π\pi ja vv;
  2. Käytetään politiikan arviointia päivittämään vv, kunnes se on yhdenmukainen π\pi:n kanssa;
  3. Käytetään politiikan parantamista päivittämään π\pi, kunnes se on ahne suhteessa vv:hen;
  4. Toistetaan vaiheet 2-3, kunnes konvergenssi saavutetaan.

Tässä menetelmässä ei tehdä osittaisia päivityksiä:

  • Politiikan arvioinnin aikana arvot päivitetään jokaiselle tilalle, kunnes ne ovat yhdenmukaisia nykyisen politiikan kanssa;
  • Politiikan parantamisen aikana politiikka tehdään ahneeksi arvotoimintoa kohtaan.

Pseudokoodi

question mark

Pseudokoodin perusteella, mikä ehto aiheuttaa policy iterationin ulomman silmukan pysähtymisen?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 3. Luku 7
some-alt