Lære Inkrementelle Implementeringer

Opbevaring af hver eneste return for hvert state-action-par kan hurtigt udtømme hukommelsen og markant øge beregningstiden — især i store miljøer. Denne begrænsning påvirker både on-policy og off-policy Monte Carlo kontrolalgoritmer. For at imødekomme dette anvendes inkrementelle beregningsstrategier, svarende til dem der bruges i multi-armed bandit-algoritmer. Disse metoder muliggør, at værdiskøn kan opdateres løbende, uden at hele return-historikken skal gemmes.

On-Policy Monte Carlo-kontrol

For on-policy-metoden ligner opdateringsstrategien den strategi, der anvendes i MAB-algoritmer:

Q(s, a) \gets Q(s, a) + \alpha (G - Q(s, a))

hvor $\displaystyle \alpha = \frac{1}{N(s, a)}$ for middelværdiestimat. De eneste værdier, der skal gemmes, er de aktuelle estimater af action-værdierne $Q(s, a)$ og antallet af gange state-action-parret $(s, a)$ er blevet besøgt $N(s, a)$ .

Pseudokode

Off-policy Monte Carlo-kontrol

For off-policy-metoden med ordinær importance sampling er alt det samme som for on-policy-metoden.

En mere interessant situation opstår med vægtet importance sampling. Ligningen ser ud på samme måde:

Q(s, a) \gets Q(s, a) + \alpha (G - Q(s, a))

men $\displaystyle \alpha = \frac{1}{N(s, a)}$ kan ikke anvendes, fordi:

Hver returnering vægtes med $\rho$ ;
Den endelige sum divideres ikke med $N(s, a)$ , men med $\sum \rho(s, a)$ .

Værdien af $\alpha$ , der faktisk kan bruges i dette tilfælde, er lig med $\displaystyle \frac{W}{C(s,a)}$ hvor:

$W$ er en $\rho$ for den aktuelle sekvens;
$C(s, a)$ er lig med $\sum \rho(s, a)$ .

Og hver gang state-action-parret $(s, a)$ optræder, lægges $\rho$ for den aktuelle sekvens til $C(s, a)$ :

C(s, a) \gets C(s, a) + W

Pseudokode

Var alt klart?

Tak for dine kommentarer!

Sektion 4. Kapitel 7

Spørg AI

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Stryg for at vise menuen

On-Policy Monte Carlo-kontrol

For on-policy-metoden ligner opdateringsstrategien den strategi, der anvendes i MAB-algoritmer:

Q(s, a) \gets Q(s, a) + \alpha (G - Q(s, a))

Pseudokode

Off-policy Monte Carlo-kontrol

For off-policy-metoden med ordinær importance sampling er alt det samme som for on-policy-metoden.

En mere interessant situation opstår med vægtet importance sampling. Ligningen ser ud på samme måde:

Q(s, a) \gets Q(s, a) + \alpha (G - Q(s, a))

men $\displaystyle \alpha = \frac{1}{N(s, a)}$ kan ikke anvendes, fordi:

Hver returnering vægtes med $\rho$ ;
Den endelige sum divideres ikke med $N(s, a)$ , men med $\sum \rho(s, a)$ .

Værdien af $\alpha$ , der faktisk kan bruges i dette tilfælde, er lig med $\displaystyle \frac{W}{C(s,a)}$ hvor:

$W$ er en $\rho$ for den aktuelle sekvens;
$C(s, a)$ er lig med $\sum \rho(s, a)$ .

Og hver gang state-action-parret $(s, a)$ optræder, lægges $\rho$ for den aktuelle sekvens til $C(s, a)$ :

C(s, a) \gets C(s, a) + W

Pseudokode

Var alt klart?

Tak for dine kommentarer!

Sektion 4. Kapitel 7