Leer SARSA: On-Policy TD-Leren | Tijdverschil Leren

Net als bij Monte Carlo-methoden kunnen we het generalized policy iteration (GPI)-raamwerk volgen om van het schatten van waardefuncties naar het leren van optimale strategieën te gaan. Dit proces introduceert echter een bekende uitdaging: de exploratie-exploitatie-afweging. Evenzo zijn er twee benaderingen die we kunnen gebruiken: on-policy en off-policy. Laten we eerst de on-policy-methode bespreken — SARSA.

Definitie

SARSA is een on-policy TD-controle-algoritme dat wordt gebruikt om de actie-waardefunctie $q_\pi(s, a)$ te schatten. Het werkt zijn schattingen bij op basis van de daadwerkelijk genomen actie, waardoor het een on-policy algoritme is.

Het acroniem SARSA is afkomstig van de vijf belangrijkste componenten die in de update worden gebruikt:

S: huidige toestand $S_t$ ;
A: genomen actie $A_t$ ;
R: ontvangen beloning $R_{t+1}$ ;
S: volgende toestand $S_{t+1}$ ;
A: volgende actie $A_{t+1}$ .

Update-regel

De update-regel lijkt op die van TD(0), maar vervangt de toestandswaardefunctie door de actiewaardefunctie:

Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma Q(S_{t+1}, A_{t+1}) - Q(S_t, A_t)\Bigr)

De $A_{t+1}$ is de actie die daadwerkelijk in de volgende stap wordt uitgevoerd en wordt geselecteerd volgens het huidige beleid. Dit betekent dat de effecten van exploratie worden meegenomen in het leerproces.

Na elke update van de actiewaardefunctie wordt het beleid ook bijgewerkt, waardoor de agent direct gebruik kan maken van de nieuwe schattingen.

Pseudocode

Wanneer SARSA gebruiken?

SARSA is te verkiezen wanneer:

Je te maken hebt met omgevingen met hoge stochastiek (bijv. gladde oppervlakken, onbetrouwbare overgangen);
Langzamere convergentie acceptabel is in ruil voor veiliger gedrag tijdens het leren.

Was alles duidelijk?

Bedankt voor je feedback!

Sectie 5. Hoofdstuk 3

Vraag AI

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Veeg om het menu te tonen