Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Policyiterasjon | Dynamisk Programmering
Introduksjon til forsterkningslæring

bookPolicyiterasjon

Ideen bak policy iteration er enkel:

  1. Start med en initial π\pi og vv;
  2. Bruk policy-evaluering for å oppdatere vv til det er konsistent med π\pi;
  3. Bruk policy-forbedring for å oppdatere π\pi til den er grådig med hensyn til vv;
  4. Gjenta trinn 2-3 til konvergens.

I denne metoden er det ingen delvise oppdateringer:

  • Under policy-evaluering oppdateres verdiene for hver tilstand til de er konsistente med gjeldende policy;
  • Under policy-forbedring gjøres policyen grådig med hensyn til verdifunksjonen.

Pseudokode

question mark

Basert på pseudokoden, hvilken betingelse gjør at den ytre løkken i policy iteration stopper?

Select the correct answer

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 3. Kapittel 7

Spør AI

expand

Spør AI

ChatGPT

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Awesome!

Completion rate improved to 2.7

bookPolicyiterasjon

Sveip for å vise menyen

Ideen bak policy iteration er enkel:

  1. Start med en initial π\pi og vv;
  2. Bruk policy-evaluering for å oppdatere vv til det er konsistent med π\pi;
  3. Bruk policy-forbedring for å oppdatere π\pi til den er grådig med hensyn til vv;
  4. Gjenta trinn 2-3 til konvergens.

I denne metoden er det ingen delvise oppdateringer:

  • Under policy-evaluering oppdateres verdiene for hver tilstand til de er konsistente med gjeldende policy;
  • Under policy-forbedring gjøres policyen grådig med hensyn til verdifunksjonen.

Pseudokode

question mark

Basert på pseudokoden, hvilken betingelse gjør at den ytre løkken i policy iteration stopper?

Select the correct answer

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 3. Kapittel 7
some-alt