Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Politikiteration | Dynamisk Programmering
Introduktion til Forstærkningslæring

bookPolitikiteration

Ideen bag policy iteration er enkel:

  1. Vælg en initial π\pi og vv;
  2. Brug policy evaluation til at opdatere vv, indtil det er konsistent med π\pi;
  3. Brug policy improvement til at opdatere π\pi, indtil det er grådig i forhold til vv;
  4. Gentag trin 2-3 indtil konvergens.

I denne metode er der ingen delvise opdateringer:

  • Under policy evaluation opdateres værdierne for hver tilstand, indtil de er konsistente med den nuværende politik;
  • Under policy improvement gøres politikken grådig i forhold til værdifunktionen.

Pseudokode

question mark

Baseret på pseudokoden, hvilken betingelse får den ydre løkke i policy iteration til at stoppe?

Select the correct answer

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 3. Kapitel 7

Spørg AI

expand

Spørg AI

ChatGPT

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Suggested prompts:

Can you explain what policy evaluation and policy improvement mean in this context?

What does it mean for a policy to be "greedy" with respect to a value function?

Can you walk me through the pseudocode step by step?

Awesome!

Completion rate improved to 2.7

bookPolitikiteration

Stryg for at vise menuen

Ideen bag policy iteration er enkel:

  1. Vælg en initial π\pi og vv;
  2. Brug policy evaluation til at opdatere vv, indtil det er konsistent med π\pi;
  3. Brug policy improvement til at opdatere π\pi, indtil det er grådig i forhold til vv;
  4. Gentag trin 2-3 indtil konvergens.

I denne metode er der ingen delvise opdateringer:

  • Under policy evaluation opdateres værdierne for hver tilstand, indtil de er konsistente med den nuværende politik;
  • Under policy improvement gøres politikken grådig i forhold til værdifunktionen.

Pseudokode

question mark

Baseret på pseudokoden, hvilken betingelse får den ydre løkke i policy iteration til at stoppe?

Select the correct answer

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 3. Kapitel 7
some-alt