Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Politiikan Iterointi | Dynaaminen Ohjelmointi
Vahvistusoppimisen Perusteet

bookPolitiikan Iterointi

Ajatus politiikan iteroinnin taustalla on yksinkertainen:

  1. Valitaan jokin alkuperäinen π\pi ja vv;
  2. Käytetään politiikan arviointia päivittämään vv, kunnes se on yhdenmukainen π\pi:n kanssa;
  3. Käytetään politiikan parantamista päivittämään π\pi, kunnes se on ahne suhteessa vv:hen;
  4. Toistetaan vaiheet 2-3, kunnes konvergenssi saavutetaan.

Tässä menetelmässä osittaisia päivityksiä ei tehdä:

  • Politiikan arvioinnin aikana arvot päivitetään jokaiselle tilalle, kunnes ne ovat yhdenmukaisia nykyisen politiikan kanssa;
  • Politiikan parantamisen aikana politiikasta tehdään ahne arvotoimintofunktioon nähden.

Pseudokoodi

question mark

Pseudokoodin perusteella, mikä ehto aiheuttaa politiikan iteroinnin ulomman silmukan pysähtymisen?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 3. Luku 7

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Suggested prompts:

Can you explain what policy evaluation and policy improvement mean in this context?

What does it mean for a policy to be "greedy" with respect to a value function?

Can you walk me through the pseudocode step by step?

Awesome!

Completion rate improved to 2.7

bookPolitiikan Iterointi

Pyyhkäise näyttääksesi valikon

Ajatus politiikan iteroinnin taustalla on yksinkertainen:

  1. Valitaan jokin alkuperäinen π\pi ja vv;
  2. Käytetään politiikan arviointia päivittämään vv, kunnes se on yhdenmukainen π\pi:n kanssa;
  3. Käytetään politiikan parantamista päivittämään π\pi, kunnes se on ahne suhteessa vv:hen;
  4. Toistetaan vaiheet 2-3, kunnes konvergenssi saavutetaan.

Tässä menetelmässä osittaisia päivityksiä ei tehdä:

  • Politiikan arvioinnin aikana arvot päivitetään jokaiselle tilalle, kunnes ne ovat yhdenmukaisia nykyisen politiikan kanssa;
  • Politiikan parantamisen aikana politiikasta tehdään ahne arvotoimintofunktioon nähden.

Pseudokoodi

question mark

Pseudokoodin perusteella, mikä ehto aiheuttaa politiikan iteroinnin ulomman silmukan pysähtymisen?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 3. Luku 7
some-alt