Lära SARSA: On-Policy TD-inlärning | Temporär Differensinlärning

Precis som med Monte Carlo-metoder kan vi följa generaliserad policy-iteration (GPI)-ramverket för att gå från att uppskatta värdefunktioner till att lära oss optimala policies. Denna process introducerar dock en välkänd utmaning: utforsknings- och exploateringsavvägningen. På samma sätt finns det två tillvägagångssätt vi kan använda: on-policy och off-policy. Först diskuterar vi on-policy-metoden — SARSA.

Definition

SARSA är en on-policy TD-kontrollalgoritm som används för att uppskatta åtgärdsvärdefunktionen $q_\pi(s, a)$ . Den uppdaterar sina uppskattningar baserat på den faktiskt utförda åtgärden, vilket gör den till en on-policy-algoritm.

Akronymen SARSA kommer från de fem nyckelkomponenterna som används vid uppdateringen:

S: nuvarande tillstånd $S_t$ ;
A: vald åtgärd $A_t$ ;
R: erhållen belöning $R_{t+1}$ ;
S: nästa tillstånd $S_{t+1}$ ;
A: nästa åtgärd $A_{t+1}$ .

Uppdateringsregel

Uppdateringsregeln liknar TD(0), men ersätter tillståndsvärdesfunktionen med åtgärdsvärdesfunktionen:

Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma Q(S_{t+1}, A_{t+1}) - Q(S_t, A_t)\Bigr)

$A_{t+1}$ är den åtgärd som faktiskt kommer att utföras i nästa steg, och den väljs enligt den aktuella policyn. Detta innebär att effekterna av utforskning integreras i inlärningsprocessen.

Efter varje uppdatering av åtgärdsvärdesfunktionen uppdateras även policyn, vilket gör att agenten omedelbart kan använda de nya uppskattningarna.

Pseudokod

När ska SARSA användas?

SARSA är att föredra när:

Du arbetar med miljöer med hög stokasticitet (t.ex. hala ytor, opålitliga övergångar);
Långsammare konvergens accepteras i utbyte mot säkrare beteende under inlärning.

Var allt tydligt?

Tack för dina kommentarer!

Avsnitt 5. Kapitel 3

Fråga AI

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Svep för att visa menyn