Cursusinhoud
Introductie tot Reinforcement Learning
Introductie tot Reinforcement Learning
SARSA: On-Policy TD-Leren
Net als bij Monte Carlo-methoden kunnen we het gegeneraliseerde beleid-iteratie (GPI)-raamwerk volgen om van het schatten van waardefuncties naar het leren van optimale beleidslijnen te gaan. Dit proces introduceert echter een bekende uitdaging: de exploratie-exploitatie-afweging. Evenzo zijn er twee benaderingen die we kunnen gebruiken: on-policy en off-policy. Laten we eerst de on-policy methode bespreken — SARSA.
SARSA is een on-policy TD-controle-algoritme dat wordt gebruikt om de actie-waardefunctie te schatten. Het werkt zijn schattingen bij op basis van de daadwerkelijk genomen actie, waardoor het een on-policy algoritme is.
Het acroniem SARSA is afkomstig van de vijf belangrijkste componenten die in de update worden gebruikt:
- S: huidige toestand ;
- A: genomen actie ;
- R: ontvangen beloning ;
- S: volgende toestand ;
- A: volgende actie .
Update-regel
De update-regel lijkt op die van TD(0), maar vervangt de toestandswaardefunctie door de actiewaardefunctie:
De is de actie die daadwerkelijk wordt uitgevoerd in de volgende stap en wordt geselecteerd volgens het huidige beleid. Dit betekent dat de effecten van exploratie worden meegenomen in het leerproces.
Na elke update van de actiewaardefunctie wordt het beleid ook bijgewerkt, waardoor de agent direct gebruik kan maken van de nieuwe schattingen.
Pseudocode
Wanneer SARSA gebruiken?
SARSA is te verkiezen wanneer:
- Je te maken hebt met omgevingen met hoge stochastiek (bijvoorbeeld gladde oppervlakken, onbetrouwbare overgangen);
- Langzamere convergentie acceptabel is in ruil voor veiliger gedrag tijdens het leren.
Bedankt voor je feedback!