Incrementele Implementaties
Veeg om het menu te tonen
Het opslaan van elke opbrengst voor elk toestand-actie-paar kan snel het geheugen uitputten en de rekentijd aanzienlijk verhogen — vooral in grote omgevingen. Deze beperking beïnvloedt zowel on-policy als off-policy Monte Carlo-controle-algoritmen. Om dit aan te pakken, gebruiken we incrementele berekeningsstrategieën, vergelijkbaar met die in multi-armed bandit-algoritmen. Deze methoden maken het mogelijk om waarde-inschattingen direct bij te werken, zonder volledige opbrengstgeschiedenissen te bewaren.
On-Policy Monte Carlo-controle
Voor de on-policy methode lijkt de bijwerkstrategie op de strategie die wordt gebruikt in MAB-algoritmen:
Q(s,a)←Q(s,a)+α(G−Q(s,a))waarbij α=N(s,a)1 voor de gemiddelde schatting. De enige waarden die moeten worden opgeslagen zijn de huidige schattingen van de actiewaarden Q(s,a) en het aantal keren dat het toestand-actie-paar (s,a) is bezocht N(s,a).
Pseudocode
Off-Policy Monte Carlo-controle
Voor de off-policy methode met gewone importance sampling is alles hetzelfde als bij de on-policy methode.
Een interessantere situatie ontstaat bij gewogen importance sampling. De vergelijking ziet er hetzelfde uit:
Q(s,a)←Q(s,a)+α(G−Q(s,a))maar α=N(s,a)1 kan niet worden gebruikt omdat:
- Elke opbrengst wordt gewogen met ρ;
- De uiteindelijke som wordt niet gedeeld door N(s,a), maar door ∑ρ(s,a).
De waarde van α die in dit geval daadwerkelijk kan worden gebruikt is gelijk aan C(s,a)W waarbij:
- W een ρ is voor de huidige traject;
- C(s,a) gelijk is aan ∑ρ(s,a).
En elke keer dat het toestand-actie-paar (s,a) voorkomt, wordt de ρ van de huidige traject toegevoegd aan C(s,a):
C(s,a)←C(s,a)+WPseudocode
Bedankt voor je feedback!
Vraag AI
Vraag AI
Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.