Kurssisisältö
Johdatus Vahvistusoppimiseen
Johdatus Vahvistusoppimiseen
Politiikan Iterointi
Policy iterationin perusajatus on yksinkertainen:
- Valitaan jokin alkuperäinen ja ;
- Käytetään politiikan arviointia päivittämään , kunnes se on yhdenmukainen :n kanssa;
- Käytetään politiikan parantamista päivittämään , kunnes se on ahne suhteessa :hen;
- Toistetaan vaiheet 2-3, kunnes konvergenssi saavutetaan.
Tässä menetelmässä ei tehdä osittaisia päivityksiä:
- Politiikan arvioinnin aikana arvot päivitetään jokaiselle tilalle, kunnes ne ovat yhdenmukaisia nykyisen politiikan kanssa;
- Politiikan parantamisen aikana politiikka tehdään ahneeksi arvotoimintoa kohtaan.
Pseudokoodi
Oliko kaikki selvää?
Kiitos palautteestasi!
Osio 3. Luku 7