Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Policyiterasjon | Dynamisk Programmering
Introduksjon til Forsterkende Læring
course content

Kursinnhold

Introduksjon til Forsterkende Læring

Introduksjon til Forsterkende Læring

1. Kjerneprinsipper i RL
2. Multi-Armet Bandittproblem
3. Dynamisk Programmering
4. Monte Carlo-metoder
5. Temporal Difference-læring

book
Policyiterasjon

Ideen bak policy iteration er enkel:

  1. Start med en initial π\pi og vv;
  2. Bruk policy evaluering for å oppdatere vv til det er konsistent med π\pi;
  3. Bruk policy forbedring for å oppdatere π\pi til det er grådig med hensyn til vv;
  4. Gjenta trinn 2-3 til konvergens.

I denne metoden er det ingen delvise oppdateringer:

  • Under policy evaluering oppdateres verdiene for hver tilstand til de er konsistente med gjeldende policy;
  • Under policy forbedring gjøres policy grådig med hensyn til verdifunksjonen.

Pseudokode

question mark

Basert på pseudokoden, hvilken betingelse gjør at den ytre løkken i policy iteration stopper?

Select the correct answer

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 3. Kapittel 7

Spør AI

expand

Spør AI

ChatGPT

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

course content

Kursinnhold

Introduksjon til Forsterkende Læring

Introduksjon til Forsterkende Læring

1. Kjerneprinsipper i RL
2. Multi-Armet Bandittproblem
3. Dynamisk Programmering
4. Monte Carlo-metoder
5. Temporal Difference-læring

book
Policyiterasjon

Ideen bak policy iteration er enkel:

  1. Start med en initial π\pi og vv;
  2. Bruk policy evaluering for å oppdatere vv til det er konsistent med π\pi;
  3. Bruk policy forbedring for å oppdatere π\pi til det er grådig med hensyn til vv;
  4. Gjenta trinn 2-3 til konvergens.

I denne metoden er det ingen delvise oppdateringer:

  • Under policy evaluering oppdateres verdiene for hver tilstand til de er konsistente med gjeldende policy;
  • Under policy forbedring gjøres policy grådig med hensyn til verdifunksjonen.

Pseudokode

question mark

Basert på pseudokoden, hvilken betingelse gjør at den ytre løkken i policy iteration stopper?

Select the correct answer

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 3. Kapittel 7
some-alt