Politiikan Iterointi
Policy iterationin perusajatus on yksinkertainen:
- Valitaan jokin alkuperäinen π ja v;
- Käytetään politiikan arviointia päivittämään v, kunnes se on yhdenmukainen π:n kanssa;
- Käytetään politiikan parantamista päivittämään π, kunnes se on ahne suhteessa v:hen;
- Toistetaan vaiheet 2-3, kunnes konvergenssi saavutetaan.
Tässä menetelmässä ei tehdä osittaisia päivityksiä:
- Politiikan arvioinnin aikana arvot päivitetään jokaiselle tilalle, kunnes ne ovat yhdenmukaisia nykyisen politiikan kanssa;
- Politiikan parantamisen aikana politiikka tehdään ahneeksi arvotoimintoa kohtaan.
Pseudokoodi
Oliko kaikki selvää?
Kiitos palautteestasi!
Osio 3. Luku 7
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
Awesome!
Completion rate improved to 2.7
Politiikan Iterointi
Pyyhkäise näyttääksesi valikon
Policy iterationin perusajatus on yksinkertainen:
- Valitaan jokin alkuperäinen π ja v;
- Käytetään politiikan arviointia päivittämään v, kunnes se on yhdenmukainen π:n kanssa;
- Käytetään politiikan parantamista päivittämään π, kunnes se on ahne suhteessa v:hen;
- Toistetaan vaiheet 2-3, kunnes konvergenssi saavutetaan.
Tässä menetelmässä ei tehdä osittaisia päivityksiä:
- Politiikan arvioinnin aikana arvot päivitetään jokaiselle tilalle, kunnes ne ovat yhdenmukaisia nykyisen politiikan kanssa;
- Politiikan parantamisen aikana politiikka tehdään ahneeksi arvotoimintoa kohtaan.
Pseudokoodi
Oliko kaikki selvää?
Kiitos palautteestasi!
Osio 3. Luku 7