Incrementele Implementaties
Het opslaan van elke opbrengst voor elk toestand-actie-paar kan snel het geheugen uitputten en de rekentijd aanzienlijk verhogen — vooral in grote omgevingen. Deze beperking beïnvloedt zowel on-policy als off-policy Monte Carlo-controle-algoritmen. Om dit aan te pakken, passen we incrementele berekeningsstrategieën toe, vergelijkbaar met die gebruikt in multi-armed bandit-algoritmen. Deze methoden maken het mogelijk om waarde-inschattingen direct bij te werken, zonder volledige opbrengstgeschiedenissen te bewaren.
On-Policy Monte Carlo-controle
Voor de on-policy methode lijkt de bijwerkstrategie op de strategie die wordt gebruikt in MAB-algoritmen:
Q(s,a)←Q(s,a)+α(G−Q(s,a))waarbij α=N(s,a)1 voor de gemiddelde schatting. De enige waarden die opgeslagen moeten worden zijn de huidige schattingen van de actiewaarden Q(s,a) en het aantal keren dat het toestand-actie-paar (s,a) is bezocht N(s,a).
Pseudocode
Off-Policy Monte Carlo-controle
Voor de off-policy methode met gewone importance sampling is alles hetzelfde als bij de on-policy methode.
Een interessantere situatie ontstaat bij gewogen importance sampling. De vergelijking ziet er hetzelfde uit:
Q(s,a)←Q(s,a)+α(G−Q(s,a))maar α=N(s,a)1 kan niet worden gebruikt omdat:
- Elke opbrengst wordt gewogen met ρ;
- De uiteindelijke som wordt niet gedeeld door N(s,a), maar door ∑ρ(s,a).
De waarde van α die in dit geval daadwerkelijk kan worden gebruikt is gelijk aan C(s,a)W waarbij:
- W een ρ is voor het huidige traject;
- C(s,a) gelijk is aan ∑ρ(s,a).
En elke keer dat het toestand-actie-paar (s,a) voorkomt, wordt de ρ van het huidige traject toegevoegd aan C(s,a):
C(s,a)←C(s,a)+WPseudocode
Bedankt voor je feedback!
Vraag AI
Vraag AI
Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.
Awesome!
Completion rate improved to 2.7
Incrementele Implementaties
Veeg om het menu te tonen
Het opslaan van elke opbrengst voor elk toestand-actie-paar kan snel het geheugen uitputten en de rekentijd aanzienlijk verhogen — vooral in grote omgevingen. Deze beperking beïnvloedt zowel on-policy als off-policy Monte Carlo-controle-algoritmen. Om dit aan te pakken, passen we incrementele berekeningsstrategieën toe, vergelijkbaar met die gebruikt in multi-armed bandit-algoritmen. Deze methoden maken het mogelijk om waarde-inschattingen direct bij te werken, zonder volledige opbrengstgeschiedenissen te bewaren.
On-Policy Monte Carlo-controle
Voor de on-policy methode lijkt de bijwerkstrategie op de strategie die wordt gebruikt in MAB-algoritmen:
Q(s,a)←Q(s,a)+α(G−Q(s,a))waarbij α=N(s,a)1 voor de gemiddelde schatting. De enige waarden die opgeslagen moeten worden zijn de huidige schattingen van de actiewaarden Q(s,a) en het aantal keren dat het toestand-actie-paar (s,a) is bezocht N(s,a).
Pseudocode
Off-Policy Monte Carlo-controle
Voor de off-policy methode met gewone importance sampling is alles hetzelfde als bij de on-policy methode.
Een interessantere situatie ontstaat bij gewogen importance sampling. De vergelijking ziet er hetzelfde uit:
Q(s,a)←Q(s,a)+α(G−Q(s,a))maar α=N(s,a)1 kan niet worden gebruikt omdat:
- Elke opbrengst wordt gewogen met ρ;
- De uiteindelijke som wordt niet gedeeld door N(s,a), maar door ∑ρ(s,a).
De waarde van α die in dit geval daadwerkelijk kan worden gebruikt is gelijk aan C(s,a)W waarbij:
- W een ρ is voor het huidige traject;
- C(s,a) gelijk is aan ∑ρ(s,a).
En elke keer dat het toestand-actie-paar (s,a) voorkomt, wordt de ρ van het huidige traject toegevoegd aan C(s,a):
C(s,a)←C(s,a)+WPseudocode
Bedankt voor je feedback!