Kursinnehåll
Introduktion till Förstärkningsinlärning
Introduktion till Förstärkningsinlärning
SARSA: On-Policy TD-Inlärning
Precis som med Monte Carlo-metoder kan vi följa generaliserad policysupprepning (GPI)-ramverket för att gå från att uppskatta värdefunktioner till att lära oss optimala policies. Denna process introducerar dock en välkänd utmaning: utforsknings- och exploateringsavvägningen. På samma sätt finns det två tillvägagångssätt vi kan använda: on-policy och off-policy. Först diskuterar vi on-policy-metoden — SARSA.
SARSA är en on-policy TD-kontrollalgoritm som används för att uppskatta aktionsvärdefunktionen . Den uppdaterar sina uppskattningar baserat på den faktiskt valda åtgärden, vilket gör den till en on-policy-algoritm.
Akronymen SARSA kommer från de fem nyckelkomponenterna som används vid uppdateringen:
- S: aktuellt tillstånd ;
- A: vald åtgärd ;
- R: erhållen belöning ;
- S: nästa tillstånd ;
- A: nästa åtgärd .
Uppdateringsregel
Uppdateringsregeln liknar TD(0), men ersätter tillståndsvärdesfunktionen med åtgärdsvärdesfunktionen:
Här är den åtgärd som faktiskt kommer att utföras i nästa steg, och den väljs enligt den aktuella policyn. Detta innebär att effekterna av utforskning integreras i inlärningsprocessen.
Efter varje uppdatering av åtgärdsvärdesfunktionen uppdateras även policyn, vilket gör att agenten omedelbart kan använda de nya uppskattningarna.
Pseudokod
När ska SARSA användas?
SARSA är att föredra när:
- Du arbetar med miljöer med hög stokasticitet (t.ex. hala ytor, opålitliga övergångar);
- Det är acceptabelt med långsammare konvergens i utbyte mot säkrare beteende under inlärning.
Tack för dina kommentarer!