Politiikan Iterointi
Ajatus politiikan iteroinnin taustalla on yksinkertainen:
- Valitaan jokin alkuperäinen π ja v;
- Käytetään politiikan arviointia päivittämään v, kunnes se on yhdenmukainen π:n kanssa;
- Käytetään politiikan parantamista päivittämään π, kunnes se on ahne suhteessa v:hen;
- Toistetaan vaiheet 2-3, kunnes konvergenssi saavutetaan.
Tässä menetelmässä osittaisia päivityksiä ei tehdä:
- Politiikan arvioinnin aikana arvot päivitetään jokaiselle tilalle, kunnes ne ovat yhdenmukaisia nykyisen politiikan kanssa;
- Politiikan parantamisen aikana politiikasta tehdään ahne arvotoimintofunktioon nähden.
Pseudokoodi
Oliko kaikki selvää?
Kiitos palautteestasi!
Osio 3. Luku 7
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
Suggested prompts:
Can you explain what policy evaluation and policy improvement mean in this context?
What does it mean for a policy to be "greedy" with respect to a value function?
Can you walk me through the pseudocode step by step?
Awesome!
Completion rate improved to 2.7
Politiikan Iterointi
Pyyhkäise näyttääksesi valikon
Ajatus politiikan iteroinnin taustalla on yksinkertainen:
- Valitaan jokin alkuperäinen π ja v;
- Käytetään politiikan arviointia päivittämään v, kunnes se on yhdenmukainen π:n kanssa;
- Käytetään politiikan parantamista päivittämään π, kunnes se on ahne suhteessa v:hen;
- Toistetaan vaiheet 2-3, kunnes konvergenssi saavutetaan.
Tässä menetelmässä osittaisia päivityksiä ei tehdä:
- Politiikan arvioinnin aikana arvot päivitetään jokaiselle tilalle, kunnes ne ovat yhdenmukaisia nykyisen politiikan kanssa;
- Politiikan parantamisen aikana politiikasta tehdään ahne arvotoimintofunktioon nähden.
Pseudokoodi
Oliko kaikki selvää?
Kiitos palautteestasi!
Osio 3. Luku 7