Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære SARSA: On-Policy TD-Læring | Temporal Difference-Læring
Introduktion til Reinforcement Learning
course content

Kursusindhold

Introduktion til Reinforcement Learning

Introduktion til Reinforcement Learning

1. RL Kerneprincipper
2. Multi-Armet Bandit-Problem
3. Dynamisk Programmering
4. Monte Carlo-metoder
5. Temporal Difference-Læring

book
SARSA: On-Policy TD-Læring

Ligesom med Monte Carlo-metoder kan vi følge generaliseret politik-iteration (GPI)-rammen for at gå fra at estimere værdifunktioner til at lære optimale politikker. Denne proces introducerer dog en velkendt udfordring: udforsknings-udnyttelses-afvejningen. På samme måde findes der to tilgange, vi kan anvende: on-policy og off-policy. Først ser vi på on-policy-metoden — SARSA.

Note
Definition

SARSA er en on-policy TD-kontrolalgoritme, der bruges til at estimere handlingsværdifunktionen qπ(s,a)q_\pi(s, a). Den opdaterer sine estimater baseret på den faktisk udførte handling, hvilket gør den til en on-policy algoritme.

Forkortelsen SARSA stammer fra de fem nøglekomponenter, der bruges i opdateringen:

  • S: nuværende tilstand StS_t;
  • A: udført handling AtA_t;
  • R: modtaget belønning Rt+1R_{t+1};
  • S: næste tilstand St+1S_{t+1};
  • A: næste handling At+1A_{t+1}.

Opdateringsregel

Opdateringsreglen ligner TD(0), men erstatter tilstands-værdi funktionen med handlings-værdi funktionen:

Q(St,At)Q(St,At)+α(Rt+1+γQ(St+1,At+1)Q(St,At))Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma Q(S_{t+1}, A_{t+1}) - Q(S_t, A_t)\Bigr)

At+1A_{t+1} er den handling, der faktisk udføres i det næste trin, og den vælges i henhold til den nuværende politik. Dette betyder, at effekten af udforskning indgår i læringsprocessen.

Efter hver opdatering af handlings-værdi funktionen opdateres politikken også, hvilket gør det muligt for agenten straks at anvende de nye estimater.

Pseudokode

Hvornår skal SARSA anvendes?

SARSA foretrækkes når:

  • Du arbejder med miljøer med høj stokasticitet (f.eks. glatte overflader, upålidelige overgange);
  • Langsommere konvergens accepteres i bytte for mere sikker adfærd under indlæring.
question mark

I hvilket scenarie er SARSA særligt at foretrække?

Select the correct answer

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 5. Kapitel 3

Spørg AI

expand

Spørg AI

ChatGPT

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

course content

Kursusindhold

Introduktion til Reinforcement Learning

Introduktion til Reinforcement Learning

1. RL Kerneprincipper
2. Multi-Armet Bandit-Problem
3. Dynamisk Programmering
4. Monte Carlo-metoder
5. Temporal Difference-Læring

book
SARSA: On-Policy TD-Læring

Ligesom med Monte Carlo-metoder kan vi følge generaliseret politik-iteration (GPI)-rammen for at gå fra at estimere værdifunktioner til at lære optimale politikker. Denne proces introducerer dog en velkendt udfordring: udforsknings-udnyttelses-afvejningen. På samme måde findes der to tilgange, vi kan anvende: on-policy og off-policy. Først ser vi på on-policy-metoden — SARSA.

Note
Definition

SARSA er en on-policy TD-kontrolalgoritme, der bruges til at estimere handlingsværdifunktionen qπ(s,a)q_\pi(s, a). Den opdaterer sine estimater baseret på den faktisk udførte handling, hvilket gør den til en on-policy algoritme.

Forkortelsen SARSA stammer fra de fem nøglekomponenter, der bruges i opdateringen:

  • S: nuværende tilstand StS_t;
  • A: udført handling AtA_t;
  • R: modtaget belønning Rt+1R_{t+1};
  • S: næste tilstand St+1S_{t+1};
  • A: næste handling At+1A_{t+1}.

Opdateringsregel

Opdateringsreglen ligner TD(0), men erstatter tilstands-værdi funktionen med handlings-værdi funktionen:

Q(St,At)Q(St,At)+α(Rt+1+γQ(St+1,At+1)Q(St,At))Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma Q(S_{t+1}, A_{t+1}) - Q(S_t, A_t)\Bigr)

At+1A_{t+1} er den handling, der faktisk udføres i det næste trin, og den vælges i henhold til den nuværende politik. Dette betyder, at effekten af udforskning indgår i læringsprocessen.

Efter hver opdatering af handlings-værdi funktionen opdateres politikken også, hvilket gør det muligt for agenten straks at anvende de nye estimater.

Pseudokode

Hvornår skal SARSA anvendes?

SARSA foretrækkes når:

  • Du arbejder med miljøer med høj stokasticitet (f.eks. glatte overflader, upålidelige overgange);
  • Langsommere konvergens accepteres i bytte for mere sikker adfærd under indlæring.
question mark

I hvilket scenarie er SARSA særligt at foretrække?

Select the correct answer

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 5. Kapitel 3
some-alt