SARSA: On-Policy TD-Læring
Ligesom med Monte Carlo-metoder kan vi følge generaliseret politik-iteration (GPI)-rammen for at gå fra at estimere værdifunktioner til at lære optimale politikker. Denne proces introducerer dog en velkendt udfordring: udforsknings-udnyttelses-afvejningen. På samme måde findes der to tilgange, vi kan anvende: on-policy og off-policy. Først ser vi på on-policy-metoden — SARSA.
SARSA er en on-policy TD-kontrolalgoritme, der bruges til at estimere handlingsværdifunktionen qπ(s,a). Den opdaterer sine estimater baseret på den faktisk udførte handling, hvilket gør den til en on-policy algoritme.
Forkortelsen SARSA stammer fra de fem nøglekomponenter, der bruges i opdateringen:
- S: nuværende tilstand St;
- A: udført handling At;
- R: modtaget belønning Rt+1;
- S: næste tilstand St+1;
- A: næste handling At+1.
Opdateringsregel
Opdateringsreglen ligner TD(0), men erstatter tilstands-værdi funktionen med handlings-værdi funktionen:
Q(St,At)←Q(St,At)+α(Rt+1+γQ(St+1,At+1)−Q(St,At))At+1 er den handling, der faktisk udføres i det næste trin, og den vælges i henhold til den nuværende politik. Dette betyder, at effekten af udforskning indgår i læringsprocessen.
Efter hver opdatering af handlings-værdi funktionen opdateres politikken også, hvilket gør det muligt for agenten straks at anvende de nye estimater.
Pseudokode
Hvornår skal SARSA anvendes?
SARSA foretrækkes når:
- Du arbejder med miljøer med høj stokasticitet (f.eks. glatte overflader, upålidelige overgange);
- Langsommere konvergens accepteres i bytte for mere sikker adfærd under indlæring.
Tak for dine kommentarer!
Spørg AI
Spørg AI
Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat
Awesome!
Completion rate improved to 2.7
SARSA: On-Policy TD-Læring
Stryg for at vise menuen
Ligesom med Monte Carlo-metoder kan vi følge generaliseret politik-iteration (GPI)-rammen for at gå fra at estimere værdifunktioner til at lære optimale politikker. Denne proces introducerer dog en velkendt udfordring: udforsknings-udnyttelses-afvejningen. På samme måde findes der to tilgange, vi kan anvende: on-policy og off-policy. Først ser vi på on-policy-metoden — SARSA.
SARSA er en on-policy TD-kontrolalgoritme, der bruges til at estimere handlingsværdifunktionen qπ(s,a). Den opdaterer sine estimater baseret på den faktisk udførte handling, hvilket gør den til en on-policy algoritme.
Forkortelsen SARSA stammer fra de fem nøglekomponenter, der bruges i opdateringen:
- S: nuværende tilstand St;
- A: udført handling At;
- R: modtaget belønning Rt+1;
- S: næste tilstand St+1;
- A: næste handling At+1.
Opdateringsregel
Opdateringsreglen ligner TD(0), men erstatter tilstands-værdi funktionen med handlings-værdi funktionen:
Q(St,At)←Q(St,At)+α(Rt+1+γQ(St+1,At+1)−Q(St,At))At+1 er den handling, der faktisk udføres i det næste trin, og den vælges i henhold til den nuværende politik. Dette betyder, at effekten af udforskning indgår i læringsprocessen.
Efter hver opdatering af handlings-værdi funktionen opdateres politikken også, hvilket gør det muligt for agenten straks at anvende de nye estimater.
Pseudokode
Hvornår skal SARSA anvendes?
SARSA foretrækkes når:
- Du arbejder med miljøer med høj stokasticitet (f.eks. glatte overflader, upålidelige overgange);
- Langsommere konvergens accepteres i bytte for mere sikker adfærd under indlæring.
Tak for dine kommentarer!