Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Generalisert Policyiterasjon | Dynamisk Programmering
Introduksjon til Forsterkende Læring
course content

Kursinnhold

Introduksjon til Forsterkende Læring

Introduksjon til Forsterkende Læring

1. Kjerneprinsipper i RL
2. Multi-Armet Bandittproblem
3. Dynamisk Programmering
4. Monte Carlo-metoder
5. Temporal Difference-læring

book
Generalisert Policyiterasjon

I tidligere kapitler lærte du om policyevaluering og policyforbedring. Disse prosessene utfyller hverandre og kombineres naturlig i et rammeverk kjent som generalisert policyiterasjon.

Note
Definisjon

Generalisert policyiterasjon (GPI) er et rammeverk der policyevaluering og policyforbedring samhandler iterativt med det felles målet å finne en optimal policy.

De fleste metoder innenfor forsterkende læring kan beskrives innenfor rammen av GPI. Hovedforskjellene mellom disse metodene skyldes spesifikke implementasjoner av policyevaluering og policyforbedring, samt måten de samhandler på.

Samspill mellom to prosesser

Policyevaluering og policyforbedring kan betraktes som både samarbeidende og konkurrerende prosesser, avhengig av perspektivet:

  • Samarbeidende: begge prosessene arbeider mot et felles mål—å finne optimal policy og verdifunksjon. Policyevaluering estimerer verdifunksjonen for en gitt policy, mens policyforbedring forbedrer policyen basert på disse estimatene;
  • Konkurrerende: hver prosess har motstridende mål. Policyevaluering har som mål å nøyaktig estimere verdifunksjonen for gjeldende policy, noe som ofte fører til at policyen ikke lenger er grådig. Omvendt justerer policyforbedring policyen til å være grådig med hensyn til de nåværende verdifunksjonsestimatene, noe som vanligvis gjør disse estimatene feilaktige. Denne konstante dragkampen fortsetter til både policy og verdifunksjon konvergerer mot sine optimale former.

Sammendrag

Generalisert policyiterasjon er et nyttig rammeverk for å forstå hvordan ulike metoder innenfor forsterkende læring nærmer seg løsningen av MDP-er. I de kommende kapitlene vil du utforske hvordan disse ideene kan brukes til å lage to essensielle DP-metoder: policyiterasjon og verdiiterasjon.

question mark

Velg de to prosessene som arbeider sammen i det generaliserte policyiterasjonsrammeverket

Select the correct answer

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 3. Kapittel 6

Spør AI

expand

Spør AI

ChatGPT

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

course content

Kursinnhold

Introduksjon til Forsterkende Læring

Introduksjon til Forsterkende Læring

1. Kjerneprinsipper i RL
2. Multi-Armet Bandittproblem
3. Dynamisk Programmering
4. Monte Carlo-metoder
5. Temporal Difference-læring

book
Generalisert Policyiterasjon

I tidligere kapitler lærte du om policyevaluering og policyforbedring. Disse prosessene utfyller hverandre og kombineres naturlig i et rammeverk kjent som generalisert policyiterasjon.

Note
Definisjon

Generalisert policyiterasjon (GPI) er et rammeverk der policyevaluering og policyforbedring samhandler iterativt med det felles målet å finne en optimal policy.

De fleste metoder innenfor forsterkende læring kan beskrives innenfor rammen av GPI. Hovedforskjellene mellom disse metodene skyldes spesifikke implementasjoner av policyevaluering og policyforbedring, samt måten de samhandler på.

Samspill mellom to prosesser

Policyevaluering og policyforbedring kan betraktes som både samarbeidende og konkurrerende prosesser, avhengig av perspektivet:

  • Samarbeidende: begge prosessene arbeider mot et felles mål—å finne optimal policy og verdifunksjon. Policyevaluering estimerer verdifunksjonen for en gitt policy, mens policyforbedring forbedrer policyen basert på disse estimatene;
  • Konkurrerende: hver prosess har motstridende mål. Policyevaluering har som mål å nøyaktig estimere verdifunksjonen for gjeldende policy, noe som ofte fører til at policyen ikke lenger er grådig. Omvendt justerer policyforbedring policyen til å være grådig med hensyn til de nåværende verdifunksjonsestimatene, noe som vanligvis gjør disse estimatene feilaktige. Denne konstante dragkampen fortsetter til både policy og verdifunksjon konvergerer mot sine optimale former.

Sammendrag

Generalisert policyiterasjon er et nyttig rammeverk for å forstå hvordan ulike metoder innenfor forsterkende læring nærmer seg løsningen av MDP-er. I de kommende kapitlene vil du utforske hvordan disse ideene kan brukes til å lage to essensielle DP-metoder: policyiterasjon og verdiiterasjon.

question mark

Velg de to prosessene som arbeider sammen i det generaliserte policyiterasjonsrammeverket

Select the correct answer

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 3. Kapittel 6
some-alt