Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Generel Policy-Iteration | Dynamisk Programmering
Introduktion til Reinforcement Learning
course content

Kursusindhold

Introduktion til Reinforcement Learning

Introduktion til Reinforcement Learning

1. RL Kerneprincipper
2. Multi-Armet Bandit-Problem
3. Dynamisk Programmering
4. Monte Carlo-metoder
5. Temporal Difference-Læring

book
Generel Policy-Iteration

I de foregående kapitler lærte du om politikevaluering og politikforbedring. Disse processer supplerer hinanden og kombineres naturligt i en ramme kendt som generaliseret politikiteration.

Note
Definition

Generaliseret politikiteration (GPI) er en ramme, hvor politikevaluering og politikforbedring interagerer iterativt med det fælles mål at bestemme en optimal politik.

De fleste metoder inden for reinforcement learning kan beskrives inden for rammen af GPI. De væsentligste forskelle mellem disse metoder skyldes de specifikke implementeringer af politikevaluering og politikforbedring samt karakteren af deres interaktioner.

Interaktion mellem to processer

Politikevaluering og politikforbedring kan betragtes som både samarbejdende og konkurrerende processer, afhængigt af perspektivet:

  • Samarbejdende: Begge processer arbejder mod et fælles mål—at finde den optimale politik og værdifunktion. Politikevaluering estimerer værdifunktionen for en given politik, mens politikforbedring forfiner politikken baseret på disse estimater;
  • Konkurrerende: Hver proces har modstridende mål. Politikevaluering sigter mod nøjagtigt at estimere værdifunktionen for den nuværende politik, hvilket ofte medfører, at politikken ikke længere er grådig. Omvendt justerer politikforbedring politikken til at være grådig i forhold til de aktuelle værdifunktionsestimater, hvilket typisk gør disse estimater forkerte. Denne konstante frem-og-tilbage fortsætter, indtil både politik og værdifunktion konvergerer til deres optimale former.

Resumé

Generaliseret politik-iteration er en nyttig ramme for at forstå, hvordan forskellige reinforcement learning-metoder nærmer sig løsningen af MDP'er. I de kommende kapitler vil du udforske, hvordan disse idéer kan anvendes til at skabe to essentielle DP-metoder: politik-iteration og værdi-iteration.

question mark

Vælg de to processer, der arbejder sammen i den generaliserede politik-iterationsramme

Select the correct answer

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 3. Kapitel 6

Spørg AI

expand

Spørg AI

ChatGPT

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

course content

Kursusindhold

Introduktion til Reinforcement Learning

Introduktion til Reinforcement Learning

1. RL Kerneprincipper
2. Multi-Armet Bandit-Problem
3. Dynamisk Programmering
4. Monte Carlo-metoder
5. Temporal Difference-Læring

book
Generel Policy-Iteration

I de foregående kapitler lærte du om politikevaluering og politikforbedring. Disse processer supplerer hinanden og kombineres naturligt i en ramme kendt som generaliseret politikiteration.

Note
Definition

Generaliseret politikiteration (GPI) er en ramme, hvor politikevaluering og politikforbedring interagerer iterativt med det fælles mål at bestemme en optimal politik.

De fleste metoder inden for reinforcement learning kan beskrives inden for rammen af GPI. De væsentligste forskelle mellem disse metoder skyldes de specifikke implementeringer af politikevaluering og politikforbedring samt karakteren af deres interaktioner.

Interaktion mellem to processer

Politikevaluering og politikforbedring kan betragtes som både samarbejdende og konkurrerende processer, afhængigt af perspektivet:

  • Samarbejdende: Begge processer arbejder mod et fælles mål—at finde den optimale politik og værdifunktion. Politikevaluering estimerer værdifunktionen for en given politik, mens politikforbedring forfiner politikken baseret på disse estimater;
  • Konkurrerende: Hver proces har modstridende mål. Politikevaluering sigter mod nøjagtigt at estimere værdifunktionen for den nuværende politik, hvilket ofte medfører, at politikken ikke længere er grådig. Omvendt justerer politikforbedring politikken til at være grådig i forhold til de aktuelle værdifunktionsestimater, hvilket typisk gør disse estimater forkerte. Denne konstante frem-og-tilbage fortsætter, indtil både politik og værdifunktion konvergerer til deres optimale former.

Resumé

Generaliseret politik-iteration er en nyttig ramme for at forstå, hvordan forskellige reinforcement learning-metoder nærmer sig løsningen af MDP'er. I de kommende kapitler vil du udforske, hvordan disse idéer kan anvendes til at skabe to essentielle DP-metoder: politik-iteration og værdi-iteration.

question mark

Vælg de to processer, der arbejder sammen i den generaliserede politik-iterationsramme

Select the correct answer

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 3. Kapitel 6
some-alt