Kursinnhold
Introduksjon til Forsterkende Læring
Introduksjon til Forsterkende Læring
Inkrementelle Implementasjoner
Å lagre hver avkastning for hvert tilstand-handlingspar kan raskt tømme minnet og betydelig øke beregningstiden — spesielt i store miljøer. Denne begrensningen påvirker både on-policy og off-policy Monte Carlo-kontrollalgoritmer. For å håndtere dette, benytter vi inkrementelle beregningsstrategier, lik de som brukes i multi-armede bandittalgoritmer. Disse metodene gjør det mulig å oppdatere verdiestimatene fortløpende, uten å måtte lagre hele historikken av avkastninger.
On-policy Monte Carlo-kontroll
For on-policy-metoden ligner oppdateringsstrategien på strategien som brukes i MAB-algoritmer:
hvor for middelverdiestimat. De eneste verdiene som må lagres er de nåværende estimatene for handlingsverdiene og antall ganger tilstand-handlingsparet har blitt besøkt .
Pseudokode
Off-policy Monte Carlo-kontroll
For off-policy-metoden med ordinær importance sampling er alt det samme som for on-policy-metoden.
En mer interessant situasjon oppstår med vektet importance sampling. Ligningen ser lik ut:
men kan ikke brukes fordi:
- Hver retur vektes med ;
- Den endelige summen deles ikke på , men på .
Verdien av som faktisk kan brukes i dette tilfellet er lik hvor:
- er en for nåværende trajektorie;
- er lik .
Og hver gang tilstands-handlingsparet oppstår, legges for nåværende trajektorie til :
Pseudokode
Takk for tilbakemeldingene dine!