Kursusindhold
Introduktion til Reinforcement Learning
Introduktion til Reinforcement Learning
SARSA: On-Policy TD-Læring
Ligesom med Monte Carlo-metoder kan vi følge generaliseret politik-iteration (GPI)-rammen for at gå fra at estimere værdifunktioner til at lære optimale politikker. Denne proces introducerer dog en velkendt udfordring: udforsknings-udnyttelses-afvejningen. På samme måde findes der to tilgange, vi kan anvende: on-policy og off-policy. Først ser vi på on-policy-metoden — SARSA.
SARSA er en on-policy TD-kontrolalgoritme, der bruges til at estimere handlingsværdifunktionen . Den opdaterer sine estimater baseret på den faktisk udførte handling, hvilket gør den til en on-policy algoritme.
Forkortelsen SARSA stammer fra de fem nøglekomponenter, der bruges i opdateringen:
- S: nuværende tilstand ;
- A: udført handling ;
- R: modtaget belønning ;
- S: næste tilstand ;
- A: næste handling .
Opdateringsregel
Opdateringsreglen ligner TD(0), men erstatter tilstands-værdi funktionen med handlings-værdi funktionen:
er den handling, der faktisk udføres i det næste trin, og den vælges i henhold til den nuværende politik. Dette betyder, at effekten af udforskning indgår i læringsprocessen.
Efter hver opdatering af handlings-værdi funktionen opdateres politikken også, hvilket gør det muligt for agenten straks at anvende de nye estimater.
Pseudokode
Hvornår skal SARSA anvendes?
SARSA foretrækkes når:
- Du arbejder med miljøer med høj stokasticitet (f.eks. glatte overflader, upålidelige overgange);
- Langsommere konvergens accepteres i bytte for mere sikker adfærd under indlæring.
Tak for dine kommentarer!