SARSA: On-Policy TD-Leren
Net als bij Monte Carlo-methoden kunnen we het gegeneraliseerde beleid-iteratie (GPI)-raamwerk volgen om van het schatten van waardefuncties naar het leren van optimale beleidslijnen te gaan. Dit proces introduceert echter een bekende uitdaging: de exploratie-exploitatie-afweging. Evenzo zijn er twee benaderingen die we kunnen gebruiken: on-policy en off-policy. Laten we eerst de on-policy methode bespreken — SARSA.
SARSA is een on-policy TD-controle-algoritme dat wordt gebruikt om de actie-waardefunctie qπ(s,a) te schatten. Het werkt zijn schattingen bij op basis van de daadwerkelijk genomen actie, waardoor het een on-policy algoritme is.
Het acroniem SARSA is afkomstig van de vijf belangrijkste componenten die in de update worden gebruikt:
- S: huidige toestand St;
- A: genomen actie At;
- R: ontvangen beloning Rt+1;
- S: volgende toestand St+1;
- A: volgende actie At+1.
Update-regel
De update-regel lijkt op die van TD(0), maar vervangt de toestandswaardefunctie door de actiewaardefunctie:
Q(St,At)←Q(St,At)+α(Rt+1+γQ(St+1,At+1)−Q(St,At))De At+1 is de actie die daadwerkelijk wordt uitgevoerd in de volgende stap en wordt geselecteerd volgens het huidige beleid. Dit betekent dat de effecten van exploratie worden meegenomen in het leerproces.
Na elke update van de actiewaardefunctie wordt het beleid ook bijgewerkt, waardoor de agent direct gebruik kan maken van de nieuwe schattingen.
Pseudocode
Wanneer SARSA gebruiken?
SARSA is te verkiezen wanneer:
- Je te maken hebt met omgevingen met hoge stochastiek (bijvoorbeeld gladde oppervlakken, onbetrouwbare overgangen);
- Langzamere convergentie acceptabel is in ruil voor veiliger gedrag tijdens het leren.
Bedankt voor je feedback!
Vraag AI
Vraag AI
Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.
Awesome!
Completion rate improved to 2.7
SARSA: On-Policy TD-Leren
Veeg om het menu te tonen
Net als bij Monte Carlo-methoden kunnen we het gegeneraliseerde beleid-iteratie (GPI)-raamwerk volgen om van het schatten van waardefuncties naar het leren van optimale beleidslijnen te gaan. Dit proces introduceert echter een bekende uitdaging: de exploratie-exploitatie-afweging. Evenzo zijn er twee benaderingen die we kunnen gebruiken: on-policy en off-policy. Laten we eerst de on-policy methode bespreken — SARSA.
SARSA is een on-policy TD-controle-algoritme dat wordt gebruikt om de actie-waardefunctie qπ(s,a) te schatten. Het werkt zijn schattingen bij op basis van de daadwerkelijk genomen actie, waardoor het een on-policy algoritme is.
Het acroniem SARSA is afkomstig van de vijf belangrijkste componenten die in de update worden gebruikt:
- S: huidige toestand St;
- A: genomen actie At;
- R: ontvangen beloning Rt+1;
- S: volgende toestand St+1;
- A: volgende actie At+1.
Update-regel
De update-regel lijkt op die van TD(0), maar vervangt de toestandswaardefunctie door de actiewaardefunctie:
Q(St,At)←Q(St,At)+α(Rt+1+γQ(St+1,At+1)−Q(St,At))De At+1 is de actie die daadwerkelijk wordt uitgevoerd in de volgende stap en wordt geselecteerd volgens het huidige beleid. Dit betekent dat de effecten van exploratie worden meegenomen in het leerproces.
Na elke update van de actiewaardefunctie wordt het beleid ook bijgewerkt, waardoor de agent direct gebruik kan maken van de nieuwe schattingen.
Pseudocode
Wanneer SARSA gebruiken?
SARSA is te verkiezen wanneer:
- Je te maken hebt met omgevingen met hoge stochastiek (bijvoorbeeld gladde oppervlakken, onbetrouwbare overgangen);
- Langzamere convergentie acceptabel is in ruil voor veiliger gedrag tijdens het leren.
Bedankt voor je feedback!