Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Policyiteration | Dynamisk Programmering
Introduktion til Reinforcement Learning
course content

Kursusindhold

Introduktion til Reinforcement Learning

Introduktion til Reinforcement Learning

1. RL Kerneprincipper
2. Multi-Armet Bandit-Problem
3. Dynamisk Programmering
4. Monte Carlo-metoder
5. Temporal Difference-Læring

book
Policyiteration

Ideen bag policy iteration er enkel:

  1. Vælg en initial π\pi og vv;
  2. Brug policy evaluation til at opdatere vv, indtil det er konsistent med π\pi;
  3. Brug policy improvement til at opdatere π\pi, indtil det er grådig i forhold til vv;
  4. Gentag trin 2-3 indtil konvergens.

I denne metode er der ingen delvise opdateringer:

  • Under policy evaluation opdateres værdierne for hver tilstand, indtil de er konsistente med den nuværende politik;
  • Under policy improvement gøres politikken grådig i forhold til værdifunktionen.

Pseudokode

question mark

Baseret på pseudokoden, hvilken betingelse får den ydre løkke i policy iteration til at stoppe?

Select the correct answer

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 3. Kapitel 7

Spørg AI

expand

Spørg AI

ChatGPT

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

course content

Kursusindhold

Introduktion til Reinforcement Learning

Introduktion til Reinforcement Learning

1. RL Kerneprincipper
2. Multi-Armet Bandit-Problem
3. Dynamisk Programmering
4. Monte Carlo-metoder
5. Temporal Difference-Læring

book
Policyiteration

Ideen bag policy iteration er enkel:

  1. Vælg en initial π\pi og vv;
  2. Brug policy evaluation til at opdatere vv, indtil det er konsistent med π\pi;
  3. Brug policy improvement til at opdatere π\pi, indtil det er grådig i forhold til vv;
  4. Gentag trin 2-3 indtil konvergens.

I denne metode er der ingen delvise opdateringer:

  • Under policy evaluation opdateres værdierne for hver tilstand, indtil de er konsistente med den nuværende politik;
  • Under policy improvement gøres politikken grådig i forhold til værdifunktionen.

Pseudokode

question mark

Baseret på pseudokoden, hvilken betingelse får den ydre løkke i policy iteration til at stoppe?

Select the correct answer

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 3. Kapitel 7
some-alt