SARSA: On-Policy TD-inlärning
Svep för att visa menyn
Precis som med Monte Carlo-metoder kan vi följa generaliserad policy-iteration (GPI)-ramverket för att gå från att uppskatta värdefunktioner till att lära oss optimala policies. Denna process introducerar dock en välkänd utmaning: utforsknings- och exploateringsavvägningen. På samma sätt finns det två tillvägagångssätt vi kan använda: on-policy och off-policy. Först diskuterar vi on-policy-metoden — SARSA.
SARSA är en on-policy TD-kontrollalgoritm som används för att uppskatta åtgärdsvärdefunktionen qπ(s,a). Den uppdaterar sina uppskattningar baserat på den faktiskt utförda åtgärden, vilket gör den till en on-policy-algoritm.
Akronymen SARSA kommer från de fem nyckelkomponenterna som används vid uppdateringen:
- S: nuvarande tillstånd St;
- A: vald åtgärd At;
- R: erhållen belöning Rt+1;
- S: nästa tillstånd St+1;
- A: nästa åtgärd At+1.
Uppdateringsregel
Uppdateringsregeln liknar TD(0), men ersätter tillståndsvärdesfunktionen med åtgärdsvärdesfunktionen:
Q(St,At)←Q(St,At)+α(Rt+1+γQ(St+1,At+1)−Q(St,At))At+1 är den åtgärd som faktiskt kommer att utföras i nästa steg, och den väljs enligt den aktuella policyn. Detta innebär att effekterna av utforskning integreras i inlärningsprocessen.
Efter varje uppdatering av åtgärdsvärdesfunktionen uppdateras även policyn, vilket gör att agenten omedelbart kan använda de nya uppskattningarna.
Pseudokod
När ska SARSA användas?
SARSA är att föredra när:
- Du arbetar med miljöer med hög stokasticitet (t.ex. hala ytor, opålitliga övergångar);
- Långsammare konvergens accepteras i utbyte mot säkrare beteende under inlärning.
Tack för dina kommentarer!
Fråga AI
Fråga AI
Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal