Cursusinhoud
Introductie tot Reinforcement Learning
Introductie tot Reinforcement Learning
Incrementele Implementaties
Het opslaan van elke opbrengst voor elk toestand-actie-paar kan snel het geheugen uitputten en de rekentijd aanzienlijk verhogen — vooral in grote omgevingen. Deze beperking beïnvloedt zowel on-policy als off-policy Monte Carlo-controle-algoritmen. Om dit aan te pakken, passen we incrementele berekeningsstrategieën toe, vergelijkbaar met die gebruikt in multi-armed bandit-algoritmen. Deze methoden maken het mogelijk om waarde-inschattingen direct bij te werken, zonder volledige opbrengstgeschiedenissen te bewaren.
On-Policy Monte Carlo-controle
Voor de on-policy methode lijkt de bijwerkstrategie op de strategie die wordt gebruikt in MAB-algoritmen:
waarbij voor de gemiddelde schatting. De enige waarden die opgeslagen moeten worden zijn de huidige schattingen van de actiewaarden en het aantal keren dat het toestand-actie-paar is bezocht .
Pseudocode
Off-Policy Monte Carlo-controle
Voor de off-policy methode met gewone importance sampling is alles hetzelfde als bij de on-policy methode.
Een interessantere situatie ontstaat bij gewogen importance sampling. De vergelijking ziet er hetzelfde uit:
maar kan niet worden gebruikt omdat:
- Elke opbrengst wordt gewogen met ;
- De uiteindelijke som wordt niet gedeeld door , maar door .
De waarde van die in dit geval daadwerkelijk kan worden gebruikt is gelijk aan waarbij:
- een is voor het huidige traject;
- gelijk is aan .
En elke keer dat het toestand-actie-paar voorkomt, wordt de van het huidige traject toegevoegd aan :
Pseudocode
Bedankt voor je feedback!