Inkrementelle Implementasjoner
Å lagre hver avkastning for hvert tilstand-handlingspar kan raskt tømme minnet og betydelig øke beregningstiden — spesielt i store miljøer. Denne begrensningen påvirker både on-policy og off-policy Monte Carlo-kontrollalgoritmer. For å håndtere dette, benytter vi inkrementelle beregningsstrategier, lik de som brukes i multi-armede bandittalgoritmer. Disse metodene gjør det mulig å oppdatere verdiestimatene fortløpende, uten å måtte lagre hele historikken av avkastninger.
On-policy Monte Carlo-kontroll
For on-policy-metoden ligner oppdateringsstrategien på strategien som brukes i MAB-algoritmer:
Q(s,a)←Q(s,a)+α(G−Q(s,a))hvor α=N(s,a)1 for middelverdiestimat. De eneste verdiene som må lagres er de nåværende estimatene for handlingsverdiene Q(s,a) og antall ganger tilstand-handlingsparet (s,a) har blitt besøkt N(s,a).
Pseudokode
Off-policy Monte Carlo-kontroll
For off-policy-metoden med ordinær importance sampling er alt det samme som for on-policy-metoden.
En mer interessant situasjon oppstår med vektet importance sampling. Ligningen ser lik ut:
Q(s,a)←Q(s,a)+α(G−Q(s,a))men α=N(s,a)1 kan ikke brukes fordi:
- Hver retur vektes med ρ;
- Den endelige summen deles ikke på N(s,a), men på ∑ρ(s,a).
Verdien av α som faktisk kan brukes i dette tilfellet er lik C(s,a)W hvor:
- W er en ρ for nåværende trajektorie;
- C(s,a) er lik ∑ρ(s,a).
Og hver gang tilstands-handlingsparet (s,a) oppstår, legges ρ for nåværende trajektorie til C(s,a):
C(s,a)←C(s,a)+WPseudokode
Takk for tilbakemeldingene dine!
Spør AI
Spør AI
Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår
Awesome!
Completion rate improved to 2.7
Inkrementelle Implementasjoner
Sveip for å vise menyen
Å lagre hver avkastning for hvert tilstand-handlingspar kan raskt tømme minnet og betydelig øke beregningstiden — spesielt i store miljøer. Denne begrensningen påvirker både on-policy og off-policy Monte Carlo-kontrollalgoritmer. For å håndtere dette, benytter vi inkrementelle beregningsstrategier, lik de som brukes i multi-armede bandittalgoritmer. Disse metodene gjør det mulig å oppdatere verdiestimatene fortløpende, uten å måtte lagre hele historikken av avkastninger.
On-policy Monte Carlo-kontroll
For on-policy-metoden ligner oppdateringsstrategien på strategien som brukes i MAB-algoritmer:
Q(s,a)←Q(s,a)+α(G−Q(s,a))hvor α=N(s,a)1 for middelverdiestimat. De eneste verdiene som må lagres er de nåværende estimatene for handlingsverdiene Q(s,a) og antall ganger tilstand-handlingsparet (s,a) har blitt besøkt N(s,a).
Pseudokode
Off-policy Monte Carlo-kontroll
For off-policy-metoden med ordinær importance sampling er alt det samme som for on-policy-metoden.
En mer interessant situasjon oppstår med vektet importance sampling. Ligningen ser lik ut:
Q(s,a)←Q(s,a)+α(G−Q(s,a))men α=N(s,a)1 kan ikke brukes fordi:
- Hver retur vektes med ρ;
- Den endelige summen deles ikke på N(s,a), men på ∑ρ(s,a).
Verdien av α som faktisk kan brukes i dette tilfellet er lik C(s,a)W hvor:
- W er en ρ for nåværende trajektorie;
- C(s,a) er lik ∑ρ(s,a).
Og hver gang tilstands-handlingsparet (s,a) oppstår, legges ρ for nåværende trajektorie til C(s,a):
C(s,a)←C(s,a)+WPseudokode
Takk for tilbakemeldingene dine!