Lære SARSA: On-Policy TD-Læring | Temporal Difference-læring

Akkurat som med Monte Carlo-metoder kan vi følge generalized policy iteration (GPI)-rammeverket for å gå fra å estimere verdifunksjoner til å lære optimale strategier. Denne prosessen introduserer imidlertid en velkjent utfordring: utforsknings-utnyttelses-avveiningen. På samme måte finnes det to tilnærminger vi kan bruke: on-policy og off-policy. Først skal vi se på on-policy-metoden — SARSA.

Definisjon

SARSA er en on-policy TD-kontrollalgoritme som brukes til å estimere handlingsverdifunksjonen $q_\pi(s, a)$ . Den oppdaterer sine estimater basert på handlingen som faktisk ble utført, noe som gjør den til en on-policy-algoritme.

Forkortelsen SARSA kommer fra de fem nøkkelkomponentene som brukes i oppdateringen:

S: nåværende tilstand $S_t$ ;
A: valgt handling $A_t$ ;
R: mottatt belønning $R_{t+1}$ ;
S: neste tilstand $S_{t+1}$ ;
A: neste handling $A_{t+1}$ .

Oppdateringsregel

Oppdateringsregelen ligner på TD(0), men erstatter tilstandsverdifunksjonen med handlingsverdifunksjonen:

Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma Q(S_{t+1}, A_{t+1}) - Q(S_t, A_t)\Bigr)

$A_{t+1}$ er handlingen som faktisk vil bli utført i neste steg, og den velges i henhold til gjeldende policy. Dette innebærer at effekten av utforskning blir inkludert i læringsprosessen.

Etter hver oppdatering av handlingsverdifunksjonen oppdateres også policyen, slik at agenten umiddelbart kan benytte de nye estimatene.

Pseudokode

Når bør SARSA brukes?

SARSA er å foretrekke når:

Du arbeider med miljøer med høy stokastisitet (f.eks. glatte overflater, upålitelige overganger);
Det er akseptabelt med tregere konvergens i bytte mot tryggere atferd under læring.

Alt var klart?

Takk for tilbakemeldingene dine!

Seksjon 5. Kapittel 3

Spør AI

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Suggested prompts:

Can you explain the difference between SARSA and Q-learning?

How does the exploration-exploitation tradeoff affect SARSA?

Can you give an example of when SARSA would be better than other methods?

Sveip for å vise menyen