SARSA: On-Policy TD-Inlärning
Precis som med Monte Carlo-metoder kan vi följa generaliserad policysupprepning (GPI)-ramverket för att gå från att uppskatta värdefunktioner till att lära oss optimala policies. Denna process introducerar dock en välkänd utmaning: utforsknings- och exploateringsavvägningen. På samma sätt finns det två tillvägagångssätt vi kan använda: on-policy och off-policy. Först diskuterar vi on-policy-metoden — SARSA.
SARSA är en on-policy TD-kontrollalgoritm som används för att uppskatta aktionsvärdefunktionen qπ(s,a). Den uppdaterar sina uppskattningar baserat på den faktiskt valda åtgärden, vilket gör den till en on-policy-algoritm.
Akronymen SARSA kommer från de fem nyckelkomponenterna som används vid uppdateringen:
- S: aktuellt tillstånd St;
- A: vald åtgärd At;
- R: erhållen belöning Rt+1;
- S: nästa tillstånd St+1;
- A: nästa åtgärd At+1.
Uppdateringsregel
Uppdateringsregeln liknar TD(0), men ersätter tillståndsvärdesfunktionen med åtgärdsvärdesfunktionen:
Q(St,At)←Q(St,At)+α(Rt+1+γQ(St+1,At+1)−Q(St,At))Här är At+1 den åtgärd som faktiskt kommer att utföras i nästa steg, och den väljs enligt den aktuella policyn. Detta innebär att effekterna av utforskning integreras i inlärningsprocessen.
Efter varje uppdatering av åtgärdsvärdesfunktionen uppdateras även policyn, vilket gör att agenten omedelbart kan använda de nya uppskattningarna.
Pseudokod
När ska SARSA användas?
SARSA är att föredra när:
- Du arbetar med miljöer med hög stokasticitet (t.ex. hala ytor, opålitliga övergångar);
- Det är acceptabelt med långsammare konvergens i utbyte mot säkrare beteende under inlärning.
Tack för dina kommentarer!
Fråga AI
Fråga AI
Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal
Awesome!
Completion rate improved to 2.7
SARSA: On-Policy TD-Inlärning
Svep för att visa menyn
Precis som med Monte Carlo-metoder kan vi följa generaliserad policysupprepning (GPI)-ramverket för att gå från att uppskatta värdefunktioner till att lära oss optimala policies. Denna process introducerar dock en välkänd utmaning: utforsknings- och exploateringsavvägningen. På samma sätt finns det två tillvägagångssätt vi kan använda: on-policy och off-policy. Först diskuterar vi on-policy-metoden — SARSA.
SARSA är en on-policy TD-kontrollalgoritm som används för att uppskatta aktionsvärdefunktionen qπ(s,a). Den uppdaterar sina uppskattningar baserat på den faktiskt valda åtgärden, vilket gör den till en on-policy-algoritm.
Akronymen SARSA kommer från de fem nyckelkomponenterna som används vid uppdateringen:
- S: aktuellt tillstånd St;
- A: vald åtgärd At;
- R: erhållen belöning Rt+1;
- S: nästa tillstånd St+1;
- A: nästa åtgärd At+1.
Uppdateringsregel
Uppdateringsregeln liknar TD(0), men ersätter tillståndsvärdesfunktionen med åtgärdsvärdesfunktionen:
Q(St,At)←Q(St,At)+α(Rt+1+γQ(St+1,At+1)−Q(St,At))Här är At+1 den åtgärd som faktiskt kommer att utföras i nästa steg, och den väljs enligt den aktuella policyn. Detta innebär att effekterna av utforskning integreras i inlärningsprocessen.
Efter varje uppdatering av åtgärdsvärdesfunktionen uppdateras även policyn, vilket gör att agenten omedelbart kan använda de nya uppskattningarna.
Pseudokod
När ska SARSA användas?
SARSA är att föredra när:
- Du arbetar med miljöer med hög stokasticitet (t.ex. hala ytor, opålitliga övergångar);
- Det är acceptabelt med långsammare konvergens i utbyte mot säkrare beteende under inlärning.
Tack för dina kommentarer!