Kursusindhold
Introduktion til Reinforcement Learning
Introduktion til Reinforcement Learning
Inkrementelle Implementeringer
At gemme hver eneste afkastværdi for hvert state-action-par kan hurtigt udtømme hukommelsen og markant forøge beregningstiden — især i store miljøer. Denne begrænsning påvirker både on-policy og off-policy Monte Carlo kontrolalgoritmer. For at imødekomme dette anvendes inkrementelle beregningsstrategier, svarende til dem der bruges i multi-armed bandit-algoritmer. Disse metoder muliggør, at værdiskøn kan opdateres løbende, uden at hele afkasts-historikken skal gemmes.
On-policy Monte Carlo-kontrol
For on-policy-metoden ligner opdateringsstrategien den strategi, der anvendes i MAB-algoritmer:
hvor for middelværdiestimat. De eneste værdier, der skal gemmes, er de aktuelle estimater af handlingsværdierne og antallet af gange state-action-parret er blevet besøgt .
Pseudokode
Off-Policy Monte Carlo-kontrol
For off-policy-metoden med almindelig importance sampling er alt det samme som for on-policy-metoden.
En mere interessant situation opstår med vægtet importance sampling. Ligningen ser ud på samme måde:
men kan ikke bruges, fordi:
- Hver returnering vægtes med ;
- Den endelige sum divideres ikke med , men med .
Værdien af , der faktisk kan bruges i dette tilfælde, er lig med hvor:
- er en for den aktuelle sekvens;
- er lig med .
Og hver gang state-action-parret optræder, lægges for den aktuelle sekvens til :
Pseudokode
Tak for dine kommentarer!