Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Generel Policy-Iteration | Dynamisk Programmering
Introduktion til Forstærkningslæring

bookGenerel Policy-Iteration

I de foregående kapitler lærte du om politikevaluering og politikforbedring. Disse processer supplerer hinanden og kombineres naturligt i en ramme kendt som generel politikiteration.

Note
Definition

Generel politikiteration (GPI) er en ramme, hvor politikevaluering og politikforbedring interagerer iterativt med det fælles mål at bestemme en optimal politik.

De fleste metoder inden for reinforcement learning kan beskrives inden for rammen af GPI. De væsentligste forskelle mellem disse metoder skyldes de specifikke implementeringer af politikevaluering og politikforbedring samt karakteren af deres interaktioner.

Interaktion mellem to processer

Politikevaluering og politikforbedring kan opfattes som både samarbejdende og konkurrerende processer, afhængigt af perspektivet:

  • Samarbejdende: begge processer arbejder mod et fælles mål—at finde den optimale politik og værdifunktion. Politikevaluering estimerer værdifunktionen for en given politik, mens politikforbedring forfiner politikken baseret på disse estimater;
  • Konkurrerende: hver proces har modstridende mål. Politikevaluering har til formål nøjagtigt at estimere værdifunktionen for den nuværende politik, hvilket ofte medfører, at politikken ikke længere er grådig. Omvendt justerer politikforbedring politikken til at være grådig i forhold til de nuværende værdifunktionsestimater, hvilket typisk gør disse estimater forkerte. Denne konstante frem-og-tilbage fortsætter, indtil både politikken og værdifunktionen konvergerer til deres optimale former.

Resumé

Generaliseret politik-iteration er en nyttig ramme til at forstå, hvordan forskellige reinforcement learning-metoder nærmer sig løsningen af MDP'er. I de kommende kapitler vil du udforske, hvordan disse idéer kan anvendes til at skabe to væsentlige DP-metoder: politik-iteration og værdi-iteration.

question mark

Vælg de to processer, der arbejder sammen i den generaliserede politik-iterationsramme

Select the correct answer

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 3. Kapitel 6

Spørg AI

expand

Spørg AI

ChatGPT

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Suggested prompts:

Can you explain what generalized policy iteration (GPI) is in simple terms?

What are the main differences between policy iteration and value iteration?

How do policy evaluation and policy improvement interact in practice?

Awesome!

Completion rate improved to 2.7

bookGenerel Policy-Iteration

Stryg for at vise menuen

I de foregående kapitler lærte du om politikevaluering og politikforbedring. Disse processer supplerer hinanden og kombineres naturligt i en ramme kendt som generel politikiteration.

Note
Definition

Generel politikiteration (GPI) er en ramme, hvor politikevaluering og politikforbedring interagerer iterativt med det fælles mål at bestemme en optimal politik.

De fleste metoder inden for reinforcement learning kan beskrives inden for rammen af GPI. De væsentligste forskelle mellem disse metoder skyldes de specifikke implementeringer af politikevaluering og politikforbedring samt karakteren af deres interaktioner.

Interaktion mellem to processer

Politikevaluering og politikforbedring kan opfattes som både samarbejdende og konkurrerende processer, afhængigt af perspektivet:

  • Samarbejdende: begge processer arbejder mod et fælles mål—at finde den optimale politik og værdifunktion. Politikevaluering estimerer værdifunktionen for en given politik, mens politikforbedring forfiner politikken baseret på disse estimater;
  • Konkurrerende: hver proces har modstridende mål. Politikevaluering har til formål nøjagtigt at estimere værdifunktionen for den nuværende politik, hvilket ofte medfører, at politikken ikke længere er grådig. Omvendt justerer politikforbedring politikken til at være grådig i forhold til de nuværende værdifunktionsestimater, hvilket typisk gør disse estimater forkerte. Denne konstante frem-og-tilbage fortsætter, indtil både politikken og værdifunktionen konvergerer til deres optimale former.

Resumé

Generaliseret politik-iteration er en nyttig ramme til at forstå, hvordan forskellige reinforcement learning-metoder nærmer sig løsningen af MDP'er. I de kommende kapitler vil du udforske, hvordan disse idéer kan anvendes til at skabe to væsentlige DP-metoder: politik-iteration og værdi-iteration.

question mark

Vælg de to processer, der arbejder sammen i den generaliserede politik-iterationsramme

Select the correct answer

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 3. Kapitel 6
some-alt