Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Generalisert Policyiterasjon | Dynamisk Programmering
Introduksjon til forsterkningslæring

bookGeneralisert Policyiterasjon

I tidligere kapitler lærte du om policyevaluering og policyforbedring. Disse prosessene utfyller hverandre og kombineres naturlig i et rammeverk kjent som generalisert policyiterasjon.

Note
Definisjon

Generalisert policyiterasjon (GPI) er et rammeverk der policyevaluering og policyforbedring samhandler iterativt med det felles målet å bestemme en optimal policy.

De fleste metoder innenfor forsterkende læring kan beskrives innenfor rammen av GPI. Hovedforskjellene mellom disse metodene skyldes spesifikke implementasjoner av policyevaluering og policyforbedring, samt typen samhandling mellom dem.

Samspill mellom to prosesser

Policyevaluering og policyforbedring kan betraktes som både samarbeidende og konkurrerende prosesser, avhengig av perspektivet:

  • Samarbeidende: begge prosessene arbeider mot et felles mål—å finne optimal policy og verdifunksjon. Policyevaluering estimerer verdifunksjonen for en gitt policy, mens policyforbedring forbedrer policyen basert på disse estimatene;
  • Konkurrerende: hver prosess har motstridende mål. Policyevaluering har som mål å estimere verdifunksjonen for gjeldende policy nøyaktig, noe som ofte fører til at policyen ikke lenger er grådig. Omvendt justerer policyforbedring policyen til å være grådig med hensyn til de nåværende verdifunksjonsestimatene, noe som vanligvis gjør disse estimatene feilaktige. Denne konstante dragkampen fortsetter til både policy og verdifunksjon konvergerer til sine optimale former.

Sammendrag

Generalisert politikkiterasjon er et nyttig rammeverk for å forstå hvordan ulike metoder innenfor forsterkende læring nærmer seg løsningen av MDP-er. I de kommende kapitlene vil du utforske hvordan disse ideene kan brukes til å skape to essensielle DP-metoder: politikkiterasjon og verdiiterasjon.

question mark

Velg de to prosessene som arbeider sammen i det generaliserte politikkiterasjonsrammeverket

Select the correct answer

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 3. Kapittel 6

Spør AI

expand

Spør AI

ChatGPT

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Suggested prompts:

Can you explain what generalized policy iteration (GPI) is in simple terms?

What are the main differences between policy iteration and value iteration?

How do policy evaluation and policy improvement interact in practice?

Awesome!

Completion rate improved to 2.7

bookGeneralisert Policyiterasjon

Sveip for å vise menyen

I tidligere kapitler lærte du om policyevaluering og policyforbedring. Disse prosessene utfyller hverandre og kombineres naturlig i et rammeverk kjent som generalisert policyiterasjon.

Note
Definisjon

Generalisert policyiterasjon (GPI) er et rammeverk der policyevaluering og policyforbedring samhandler iterativt med det felles målet å bestemme en optimal policy.

De fleste metoder innenfor forsterkende læring kan beskrives innenfor rammen av GPI. Hovedforskjellene mellom disse metodene skyldes spesifikke implementasjoner av policyevaluering og policyforbedring, samt typen samhandling mellom dem.

Samspill mellom to prosesser

Policyevaluering og policyforbedring kan betraktes som både samarbeidende og konkurrerende prosesser, avhengig av perspektivet:

  • Samarbeidende: begge prosessene arbeider mot et felles mål—å finne optimal policy og verdifunksjon. Policyevaluering estimerer verdifunksjonen for en gitt policy, mens policyforbedring forbedrer policyen basert på disse estimatene;
  • Konkurrerende: hver prosess har motstridende mål. Policyevaluering har som mål å estimere verdifunksjonen for gjeldende policy nøyaktig, noe som ofte fører til at policyen ikke lenger er grådig. Omvendt justerer policyforbedring policyen til å være grådig med hensyn til de nåværende verdifunksjonsestimatene, noe som vanligvis gjør disse estimatene feilaktige. Denne konstante dragkampen fortsetter til både policy og verdifunksjon konvergerer til sine optimale former.

Sammendrag

Generalisert politikkiterasjon er et nyttig rammeverk for å forstå hvordan ulike metoder innenfor forsterkende læring nærmer seg løsningen av MDP-er. I de kommende kapitlene vil du utforske hvordan disse ideene kan brukes til å skape to essensielle DP-metoder: politikkiterasjon og verdiiterasjon.

question mark

Velg de to prosessene som arbeider sammen i det generaliserte politikkiterasjonsrammeverket

Select the correct answer

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 3. Kapittel 6
some-alt