Lære SARSA: On-Policy TD-Læring | Temporal Difference Learning

Ligesom med Monte Carlo-metoder kan vi følge generaliseret politik-iteration (GPI)-rammen for at gå fra at estimere værdifunktioner til at lære optimale politikker. Denne proces introducerer dog en velkendt udfordring: udforsknings-udnyttelses-afvejningen. Og på samme måde er der to tilgange, vi kan anvende: on-policy og off-policy. Først vil vi tale om on-policy-metoden — SARSA.

Definition

SARSA er en on-policy TD-kontrolalgoritme, der bruges til at estimere handlingsværdifunktionen $q_\pi(s, a)$ . Den opdaterer sine estimater baseret på den faktisk udførte handling, hvilket gør den til en on-policy algoritme.

Forkortelsen SARSA kommer fra de fem nøglekomponenter, der bruges i opdateringen:

S: nuværende tilstand $S_t$ ;
A: udført handling $A_t$ ;
R: modtaget belønning $R_{t+1}$ ;
S: næste tilstand $S_{t+1}$ ;
A: næste handling $A_{t+1}$ .

Opdateringsregel

Opdateringsreglen ligner TD(0), men erstatter tilstandsværdi-funktionen med handlingsværdi-funktionen:

Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma Q(S_{t+1}, A_{t+1}) - Q(S_t, A_t)\Bigr)

$A_{t+1}$ er den handling, der faktisk udføres i det næste trin, og den vælges i henhold til den aktuelle politik. Dette betyder, at effekten af udforskning indgår i læringsprocessen.

Efter hver opdatering af handlingsværdi-funktionen opdateres politikken også, hvilket gør det muligt for agenten straks at anvende de nye estimater.

Pseudokode

Hvornår skal SARSA anvendes?

SARSA foretrækkes når:

Du arbejder med miljøer med høj stokasticitet (f.eks. glatte overflader, upålidelige overgange);
Du accepterer langsommere konvergens til fordel for mere sikker adfærd under indlæring.

Var alt klart?

Tak for dine kommentarer!

Sektion 5. Kapitel 3

Spørg AI

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Stryg for at vise menuen