Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lära SARSA: On-Policy TD-Inlärning | Temporär Differensinlärning
Introduktion till Förstärkningsinlärning

bookSARSA: On-Policy TD-Inlärning

Precis som med Monte Carlo-metoder kan vi följa generaliserad policysupprepning (GPI)-ramverket för att gå från att uppskatta värdefunktioner till att lära oss optimala policies. Denna process introducerar dock en välkänd utmaning: utforsknings- och exploateringsavvägningen. På samma sätt finns det två tillvägagångssätt vi kan använda: on-policy och off-policy. Först diskuterar vi on-policy-metoden — SARSA.

Note
Definition

SARSA är en on-policy TD-kontrollalgoritm som används för att uppskatta aktionsvärdefunktionen qπ(s,a)q_\pi(s, a). Den uppdaterar sina uppskattningar baserat på den faktiskt valda åtgärden, vilket gör den till en on-policy-algoritm.

Akronymen SARSA kommer från de fem nyckelkomponenterna som används vid uppdateringen:

  • S: aktuellt tillstånd StS_t;
  • A: vald åtgärd AtA_t;
  • R: erhållen belöning Rt+1R_{t+1};
  • S: nästa tillstånd St+1S_{t+1};
  • A: nästa åtgärd At+1A_{t+1}.

Uppdateringsregel

Uppdateringsregeln liknar TD(0), men ersätter tillståndsvärdesfunktionen med åtgärdsvärdesfunktionen:

Q(St,At)Q(St,At)+α(Rt+1+γQ(St+1,At+1)Q(St,At))Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma Q(S_{t+1}, A_{t+1}) - Q(S_t, A_t)\Bigr)

Här är At+1A_{t+1} den åtgärd som faktiskt kommer att utföras i nästa steg, och den väljs enligt den aktuella policyn. Detta innebär att effekterna av utforskning integreras i inlärningsprocessen.

Efter varje uppdatering av åtgärdsvärdesfunktionen uppdateras även policyn, vilket gör att agenten omedelbart kan använda de nya uppskattningarna.

Pseudokod

När ska SARSA användas?

SARSA är att föredra när:

  • Du arbetar med miljöer med hög stokasticitet (t.ex. hala ytor, opålitliga övergångar);
  • Det är acceptabelt med långsammare konvergens i utbyte mot säkrare beteende under inlärning.
question mark

I vilket scenario är SARSA särskilt att föredra?

Select the correct answer

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 5. Kapitel 3

Fråga AI

expand

Fråga AI

ChatGPT

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Awesome!

Completion rate improved to 2.7

bookSARSA: On-Policy TD-Inlärning

Svep för att visa menyn

Precis som med Monte Carlo-metoder kan vi följa generaliserad policysupprepning (GPI)-ramverket för att gå från att uppskatta värdefunktioner till att lära oss optimala policies. Denna process introducerar dock en välkänd utmaning: utforsknings- och exploateringsavvägningen. På samma sätt finns det två tillvägagångssätt vi kan använda: on-policy och off-policy. Först diskuterar vi on-policy-metoden — SARSA.

Note
Definition

SARSA är en on-policy TD-kontrollalgoritm som används för att uppskatta aktionsvärdefunktionen qπ(s,a)q_\pi(s, a). Den uppdaterar sina uppskattningar baserat på den faktiskt valda åtgärden, vilket gör den till en on-policy-algoritm.

Akronymen SARSA kommer från de fem nyckelkomponenterna som används vid uppdateringen:

  • S: aktuellt tillstånd StS_t;
  • A: vald åtgärd AtA_t;
  • R: erhållen belöning Rt+1R_{t+1};
  • S: nästa tillstånd St+1S_{t+1};
  • A: nästa åtgärd At+1A_{t+1}.

Uppdateringsregel

Uppdateringsregeln liknar TD(0), men ersätter tillståndsvärdesfunktionen med åtgärdsvärdesfunktionen:

Q(St,At)Q(St,At)+α(Rt+1+γQ(St+1,At+1)Q(St,At))Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma Q(S_{t+1}, A_{t+1}) - Q(S_t, A_t)\Bigr)

Här är At+1A_{t+1} den åtgärd som faktiskt kommer att utföras i nästa steg, och den väljs enligt den aktuella policyn. Detta innebär att effekterna av utforskning integreras i inlärningsprocessen.

Efter varje uppdatering av åtgärdsvärdesfunktionen uppdateras även policyn, vilket gör att agenten omedelbart kan använda de nya uppskattningarna.

Pseudokod

När ska SARSA användas?

SARSA är att föredra när:

  • Du arbetar med miljöer med hög stokasticitet (t.ex. hala ytor, opålitliga övergångar);
  • Det är acceptabelt med långsammare konvergens i utbyte mot säkrare beteende under inlärning.
question mark

I vilket scenario är SARSA särskilt att föredra?

Select the correct answer

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 5. Kapitel 3
some-alt