Kursinnhold
Introduksjon til Forsterkende Læring
Introduksjon til Forsterkende Læring
SARSA: On-Policy TD-Læring
Akkurat som med Monte Carlo-metoder, kan vi følge generalized policy iteration (GPI)-rammeverket for å gå fra å estimere verdifunksjoner til å lære optimale strategier. Denne prosessen introduserer imidlertid en velkjent utfordring: utforsknings-utnyttelses-dilemmaet. På samme måte finnes det to tilnærminger vi kan bruke: on-policy og off-policy. Først skal vi se på on-policy-metoden — SARSA.
SARSA er en on-policy TD-kontrollalgoritme som brukes til å estimere handlingsverdifunksjonen . Den oppdaterer sine estimater basert på handlingen som faktisk ble utført, noe som gjør den til en on-policy algoritme.
Forkortelsen SARSA kommer fra de fem sentrale komponentene som brukes i oppdateringen:
- S: nåværende tilstand ;
- A: handling utført ;
- R: mottatt belønning ;
- S: neste tilstand ;
- A: neste handling .
Oppdateringsregel
Oppdateringsregelen ligner på TD(0), men erstatter tilstandsverdifunksjonen med handlingsverdifunksjonen:
er handlingen som faktisk vil bli utført i neste steg, og den velges i henhold til gjeldende policy. Dette innebærer at effekten av utforskning blir inkludert i læringsprosessen.
Etter hver oppdatering av handlingsverdifunksjonen, oppdateres også policyen, slik at agenten umiddelbart kan benytte de nye estimatene.
Pseudokode
Når bør SARSA brukes?
SARSA er å foretrekke når:
- Du arbeider med miljøer med høy stokastisitet (f.eks. glatte overflater, upålitelige overganger);
- Det er akseptabelt med tregere konvergens i bytte mot tryggere atferd under læring.
Takk for tilbakemeldingene dine!