SARSA: On-Policy TD-Læring
Ligesom med Monte Carlo-metoder kan vi følge generaliseret politik-iteration (GPI)-rammen for at gå fra at estimere værdifunktioner til at lære optimale politikker. Denne proces introducerer dog en velkendt udfordring: udforsknings-udnyttelses-afvejningen. Og på samme måde er der to tilgange, vi kan anvende: on-policy og off-policy. Først vil vi tale om on-policy-metoden — SARSA.
SARSA er en on-policy TD-kontrolalgoritme, der bruges til at estimere handlingsværdifunktionen qπ(s,a). Den opdaterer sine estimater baseret på den faktisk udførte handling, hvilket gør den til en on-policy algoritme.
Forkortelsen SARSA kommer fra de fem nøglekomponenter, der bruges i opdateringen:
- S: nuværende tilstand St;
- A: udført handling At;
- R: modtaget belønning Rt+1;
- S: næste tilstand St+1;
- A: næste handling At+1.
Opdateringsregel
Opdateringsreglen ligner TD(0), men erstatter tilstandsværdi-funktionen med handlingsværdi-funktionen:
Q(St,At)←Q(St,At)+α(Rt+1+γQ(St+1,At+1)−Q(St,At))At+1 er den handling, der faktisk udføres i det næste trin, og den vælges i henhold til den aktuelle politik. Dette betyder, at effekten af udforskning indgår i læringsprocessen.
Efter hver opdatering af handlingsværdi-funktionen opdateres politikken også, hvilket gør det muligt for agenten straks at anvende de nye estimater.
Pseudokode
Hvornår skal SARSA anvendes?
SARSA foretrækkes når:
- Du arbejder med miljøer med høj stokasticitet (f.eks. glatte overflader, upålidelige overgange);
- Du accepterer langsommere konvergens til fordel for mere sikker adfærd under indlæring.
Tak for dine kommentarer!
Spørg AI
Spørg AI
Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat
Can you explain the difference between SARSA and Q-learning?
How does the exploration-exploitation tradeoff affect SARSA?
Can you give an example of when SARSA would be better than other methods?
Awesome!
Completion rate improved to 2.7
SARSA: On-Policy TD-Læring
Stryg for at vise menuen
Ligesom med Monte Carlo-metoder kan vi følge generaliseret politik-iteration (GPI)-rammen for at gå fra at estimere værdifunktioner til at lære optimale politikker. Denne proces introducerer dog en velkendt udfordring: udforsknings-udnyttelses-afvejningen. Og på samme måde er der to tilgange, vi kan anvende: on-policy og off-policy. Først vil vi tale om on-policy-metoden — SARSA.
SARSA er en on-policy TD-kontrolalgoritme, der bruges til at estimere handlingsværdifunktionen qπ(s,a). Den opdaterer sine estimater baseret på den faktisk udførte handling, hvilket gør den til en on-policy algoritme.
Forkortelsen SARSA kommer fra de fem nøglekomponenter, der bruges i opdateringen:
- S: nuværende tilstand St;
- A: udført handling At;
- R: modtaget belønning Rt+1;
- S: næste tilstand St+1;
- A: næste handling At+1.
Opdateringsregel
Opdateringsreglen ligner TD(0), men erstatter tilstandsværdi-funktionen med handlingsværdi-funktionen:
Q(St,At)←Q(St,At)+α(Rt+1+γQ(St+1,At+1)−Q(St,At))At+1 er den handling, der faktisk udføres i det næste trin, og den vælges i henhold til den aktuelle politik. Dette betyder, at effekten af udforskning indgår i læringsprocessen.
Efter hver opdatering af handlingsværdi-funktionen opdateres politikken også, hvilket gør det muligt for agenten straks at anvende de nye estimater.
Pseudokode
Hvornår skal SARSA anvendes?
SARSA foretrækkes når:
- Du arbejder med miljøer med høj stokasticitet (f.eks. glatte overflader, upålidelige overgange);
- Du accepterer langsommere konvergens til fordel for mere sikker adfærd under indlæring.
Tak for dine kommentarer!