Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lära SARSA: On-Policy TD-Inlärning | Temporär Differensinlärning
Introduktion till Förstärkningsinlärning
course content

Kursinnehåll

Introduktion till Förstärkningsinlärning

Introduktion till Förstärkningsinlärning

1. RL Kärnteori
2. Multi-Armed Bandit-Problemet
3. Dynamisk Programmering
4. Monte Carlo-metoder
5. Temporär Differensinlärning

book
SARSA: On-Policy TD-Inlärning

Precis som med Monte Carlo-metoder kan vi följa generaliserad policysupprepning (GPI)-ramverket för att gå från att uppskatta värdefunktioner till att lära oss optimala policies. Denna process introducerar dock en välkänd utmaning: utforsknings- och exploateringsavvägningen. På samma sätt finns det två tillvägagångssätt vi kan använda: on-policy och off-policy. Först diskuterar vi on-policy-metoden — SARSA.

Note
Definition

SARSA är en on-policy TD-kontrollalgoritm som används för att uppskatta aktionsvärdefunktionen qπ(s,a)q_\pi(s, a). Den uppdaterar sina uppskattningar baserat på den faktiskt valda åtgärden, vilket gör den till en on-policy-algoritm.

Akronymen SARSA kommer från de fem nyckelkomponenterna som används vid uppdateringen:

  • S: aktuellt tillstånd StS_t;
  • A: vald åtgärd AtA_t;
  • R: erhållen belöning Rt+1R_{t+1};
  • S: nästa tillstånd St+1S_{t+1};
  • A: nästa åtgärd At+1A_{t+1}.

Uppdateringsregel

Uppdateringsregeln liknar TD(0), men ersätter tillståndsvärdesfunktionen med åtgärdsvärdesfunktionen:

Q(St,At)Q(St,At)+α(Rt+1+γQ(St+1,At+1)Q(St,At))Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma Q(S_{t+1}, A_{t+1}) - Q(S_t, A_t)\Bigr)

Här är At+1A_{t+1} den åtgärd som faktiskt kommer att utföras i nästa steg, och den väljs enligt den aktuella policyn. Detta innebär att effekterna av utforskning integreras i inlärningsprocessen.

Efter varje uppdatering av åtgärdsvärdesfunktionen uppdateras även policyn, vilket gör att agenten omedelbart kan använda de nya uppskattningarna.

Pseudokod

När ska SARSA användas?

SARSA är att föredra när:

  • Du arbetar med miljöer med hög stokasticitet (t.ex. hala ytor, opålitliga övergångar);
  • Det är acceptabelt med långsammare konvergens i utbyte mot säkrare beteende under inlärning.
question mark

I vilket scenario är SARSA särskilt att föredra?

Select the correct answer

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 5. Kapitel 3

Fråga AI

expand

Fråga AI

ChatGPT

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

course content

Kursinnehåll

Introduktion till Förstärkningsinlärning

Introduktion till Förstärkningsinlärning

1. RL Kärnteori
2. Multi-Armed Bandit-Problemet
3. Dynamisk Programmering
4. Monte Carlo-metoder
5. Temporär Differensinlärning

book
SARSA: On-Policy TD-Inlärning

Precis som med Monte Carlo-metoder kan vi följa generaliserad policysupprepning (GPI)-ramverket för att gå från att uppskatta värdefunktioner till att lära oss optimala policies. Denna process introducerar dock en välkänd utmaning: utforsknings- och exploateringsavvägningen. På samma sätt finns det två tillvägagångssätt vi kan använda: on-policy och off-policy. Först diskuterar vi on-policy-metoden — SARSA.

Note
Definition

SARSA är en on-policy TD-kontrollalgoritm som används för att uppskatta aktionsvärdefunktionen qπ(s,a)q_\pi(s, a). Den uppdaterar sina uppskattningar baserat på den faktiskt valda åtgärden, vilket gör den till en on-policy-algoritm.

Akronymen SARSA kommer från de fem nyckelkomponenterna som används vid uppdateringen:

  • S: aktuellt tillstånd StS_t;
  • A: vald åtgärd AtA_t;
  • R: erhållen belöning Rt+1R_{t+1};
  • S: nästa tillstånd St+1S_{t+1};
  • A: nästa åtgärd At+1A_{t+1}.

Uppdateringsregel

Uppdateringsregeln liknar TD(0), men ersätter tillståndsvärdesfunktionen med åtgärdsvärdesfunktionen:

Q(St,At)Q(St,At)+α(Rt+1+γQ(St+1,At+1)Q(St,At))Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma Q(S_{t+1}, A_{t+1}) - Q(S_t, A_t)\Bigr)

Här är At+1A_{t+1} den åtgärd som faktiskt kommer att utföras i nästa steg, och den väljs enligt den aktuella policyn. Detta innebär att effekterna av utforskning integreras i inlärningsprocessen.

Efter varje uppdatering av åtgärdsvärdesfunktionen uppdateras även policyn, vilket gör att agenten omedelbart kan använda de nya uppskattningarna.

Pseudokod

När ska SARSA användas?

SARSA är att föredra när:

  • Du arbetar med miljöer med hög stokasticitet (t.ex. hala ytor, opålitliga övergångar);
  • Det är acceptabelt med långsammare konvergens i utbyte mot säkrare beteende under inlärning.
question mark

I vilket scenario är SARSA särskilt att föredra?

Select the correct answer

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 5. Kapitel 3
some-alt