Lære Generalisert Policyiterasjon | Dynamisk Programmering

I tidligere kapitler lærte du om politikkevaluering og politikkforbedring. Disse prosessene utfyller hverandre og kombineres naturlig i et rammeverk kjent som generalisert politikkiterasjon.

Definisjon

Generalisert politikkiterasjon (GPI) er et rammeverk der politikkevaluering og politikkforbedring samhandler iterativt med det felles målet å bestemme en optimal politikk.

De fleste metoder innenfor forsterkende læring kan beskrives innenfor rammeverket til GPI. Hovedforskjellene mellom disse metodene skyldes spesifikke implementasjoner av politikkevaluering og politikkforbedring, samt karakteren av deres samhandling.

Samspill mellom to prosesser

Policyevaluering og policyforbedring kan betraktes som både samarbeidende og konkurrerende prosesser, avhengig av perspektivet:

Samarbeidende: begge prosessene arbeider mot et felles mål—å finne optimal policy og verdifunksjon. Policyevaluering estimerer verdifunksjonen for en gitt policy, mens policyforbedring forbedrer policyen basert på disse estimatene;
Konkurrerende: hver prosess har motstridende mål. Policyevaluering har som mål å nøyaktig estimere verdifunksjonen for gjeldende policy, noe som ofte fører til at policyen ikke lenger er grådig. Omvendt justerer policyforbedring policyen til å være grådig med hensyn til de nåværende verdifunksjonsestimatene, noe som vanligvis gjør disse estimatene feilaktige. Denne konstante dragkampen fortsetter til både policy og verdifunksjon konvergerer til sine optimale former.

Sammendrag

Generalisert politikkiterasjon er et nyttig rammeverk for å forstå hvordan ulike metoder innenfor forsterkende læring nærmer seg løsningen av MDP-er. I de kommende kapitlene vil du utforske hvordan disse ideene kan brukes til å lage to essensielle DP-metoder: politikkiterasjon og verdiiterasjon.

Alt var klart?

Takk for tilbakemeldingene dine!

Seksjon 3. Kapittel 6

Spør AI

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Suggested prompts:

Can you explain what generalized policy iteration (GPI) is in simple terms?

What are the main differences between policy iteration and value iteration?

How do policy evaluation and policy improvement interact in practice?

Sveip for å vise menyen