Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Leer SARSA: On-Policy TD-Leren | Temporale Verschil Leren
Introductie tot Reinforcement Learning
course content

Cursusinhoud

Introductie tot Reinforcement Learning

Introductie tot Reinforcement Learning

1. Kernprincipes van RL
2. Multi-Armed Bandit Probleem
3. Dynamisch Programmeren
4. Monte Carlo-Methoden
5. Temporale Verschil Leren

book
SARSA: On-Policy TD-Leren

Net als bij Monte Carlo-methoden kunnen we het gegeneraliseerde beleid-iteratie (GPI)-raamwerk volgen om van het schatten van waardefuncties naar het leren van optimale beleidslijnen te gaan. Dit proces introduceert echter een bekende uitdaging: de exploratie-exploitatie-afweging. Evenzo zijn er twee benaderingen die we kunnen gebruiken: on-policy en off-policy. Laten we eerst de on-policy methode bespreken — SARSA.

Note
Definitie

SARSA is een on-policy TD-controle-algoritme dat wordt gebruikt om de actie-waardefunctie qπ(s,a)q_\pi(s, a) te schatten. Het werkt zijn schattingen bij op basis van de daadwerkelijk genomen actie, waardoor het een on-policy algoritme is.

Het acroniem SARSA is afkomstig van de vijf belangrijkste componenten die in de update worden gebruikt:

  • S: huidige toestand StS_t;
  • A: genomen actie AtA_t;
  • R: ontvangen beloning Rt+1R_{t+1};
  • S: volgende toestand St+1S_{t+1};
  • A: volgende actie At+1A_{t+1}.

Update-regel

De update-regel lijkt op die van TD(0), maar vervangt de toestandswaardefunctie door de actiewaardefunctie:

Q(St,At)Q(St,At)+α(Rt+1+γQ(St+1,At+1)Q(St,At))Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma Q(S_{t+1}, A_{t+1}) - Q(S_t, A_t)\Bigr)

De At+1A_{t+1} is de actie die daadwerkelijk wordt uitgevoerd in de volgende stap en wordt geselecteerd volgens het huidige beleid. Dit betekent dat de effecten van exploratie worden meegenomen in het leerproces.

Na elke update van de actiewaardefunctie wordt het beleid ook bijgewerkt, waardoor de agent direct gebruik kan maken van de nieuwe schattingen.

Pseudocode

Wanneer SARSA gebruiken?

SARSA is te verkiezen wanneer:

  • Je te maken hebt met omgevingen met hoge stochastiek (bijvoorbeeld gladde oppervlakken, onbetrouwbare overgangen);
  • Langzamere convergentie acceptabel is in ruil voor veiliger gedrag tijdens het leren.
question mark

In welk scenario is SARSA bijzonder aan te bevelen?

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 5. Hoofdstuk 3

Vraag AI

expand

Vraag AI

ChatGPT

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

course content

Cursusinhoud

Introductie tot Reinforcement Learning

Introductie tot Reinforcement Learning

1. Kernprincipes van RL
2. Multi-Armed Bandit Probleem
3. Dynamisch Programmeren
4. Monte Carlo-Methoden
5. Temporale Verschil Leren

book
SARSA: On-Policy TD-Leren

Net als bij Monte Carlo-methoden kunnen we het gegeneraliseerde beleid-iteratie (GPI)-raamwerk volgen om van het schatten van waardefuncties naar het leren van optimale beleidslijnen te gaan. Dit proces introduceert echter een bekende uitdaging: de exploratie-exploitatie-afweging. Evenzo zijn er twee benaderingen die we kunnen gebruiken: on-policy en off-policy. Laten we eerst de on-policy methode bespreken — SARSA.

Note
Definitie

SARSA is een on-policy TD-controle-algoritme dat wordt gebruikt om de actie-waardefunctie qπ(s,a)q_\pi(s, a) te schatten. Het werkt zijn schattingen bij op basis van de daadwerkelijk genomen actie, waardoor het een on-policy algoritme is.

Het acroniem SARSA is afkomstig van de vijf belangrijkste componenten die in de update worden gebruikt:

  • S: huidige toestand StS_t;
  • A: genomen actie AtA_t;
  • R: ontvangen beloning Rt+1R_{t+1};
  • S: volgende toestand St+1S_{t+1};
  • A: volgende actie At+1A_{t+1}.

Update-regel

De update-regel lijkt op die van TD(0), maar vervangt de toestandswaardefunctie door de actiewaardefunctie:

Q(St,At)Q(St,At)+α(Rt+1+γQ(St+1,At+1)Q(St,At))Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma Q(S_{t+1}, A_{t+1}) - Q(S_t, A_t)\Bigr)

De At+1A_{t+1} is de actie die daadwerkelijk wordt uitgevoerd in de volgende stap en wordt geselecteerd volgens het huidige beleid. Dit betekent dat de effecten van exploratie worden meegenomen in het leerproces.

Na elke update van de actiewaardefunctie wordt het beleid ook bijgewerkt, waardoor de agent direct gebruik kan maken van de nieuwe schattingen.

Pseudocode

Wanneer SARSA gebruiken?

SARSA is te verkiezen wanneer:

  • Je te maken hebt met omgevingen met hoge stochastiek (bijvoorbeeld gladde oppervlakken, onbetrouwbare overgangen);
  • Langzamere convergentie acceptabel is in ruil voor veiliger gedrag tijdens het leren.
question mark

In welk scenario is SARSA bijzonder aan te bevelen?

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 5. Hoofdstuk 3
some-alt