Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Policyiterasjon | Dynamisk Programmering
Introduksjon til Forsterkende Læring

bookPolicyiterasjon

Ideen bak policy iteration er enkel:

  1. Start med en initial π\pi og vv;
  2. Bruk policy evaluering for å oppdatere vv til det er konsistent med π\pi;
  3. Bruk policy forbedring for å oppdatere π\pi til det er grådig med hensyn til vv;
  4. Gjenta trinn 2-3 til konvergens.

I denne metoden er det ingen delvise oppdateringer:

  • Under policy evaluering oppdateres verdiene for hver tilstand til de er konsistente med gjeldende policy;
  • Under policy forbedring gjøres policy grådig med hensyn til verdifunksjonen.

Pseudokode

question mark

Basert på pseudokoden, hvilken betingelse gjør at den ytre løkken i policy iteration stopper?

Select the correct answer

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 3. Kapittel 7

Spør AI

expand

Spør AI

ChatGPT

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Suggested prompts:

Can you explain what policy evaluation and policy improvement mean in this context?

How does policy iteration differ from value iteration?

Can you walk me through the pseudocode step by step?

Awesome!

Completion rate improved to 2.7

bookPolicyiterasjon

Sveip for å vise menyen

Ideen bak policy iteration er enkel:

  1. Start med en initial π\pi og vv;
  2. Bruk policy evaluering for å oppdatere vv til det er konsistent med π\pi;
  3. Bruk policy forbedring for å oppdatere π\pi til det er grådig med hensyn til vv;
  4. Gjenta trinn 2-3 til konvergens.

I denne metoden er det ingen delvise oppdateringer:

  • Under policy evaluering oppdateres verdiene for hver tilstand til de er konsistente med gjeldende policy;
  • Under policy forbedring gjøres policy grådig med hensyn til verdifunksjonen.

Pseudokode

question mark

Basert på pseudokoden, hvilken betingelse gjør at den ytre løkken i policy iteration stopper?

Select the correct answer

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 3. Kapittel 7
some-alt