Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære SARSA: On-Policy TD-Læring | Temporal Difference-læring
Introduksjon til Forsterkende Læring
course content

Kursinnhold

Introduksjon til Forsterkende Læring

Introduksjon til Forsterkende Læring

1. Kjerneprinsipper i RL
2. Multi-Armet Bandittproblem
3. Dynamisk Programmering
4. Monte Carlo-metoder
5. Temporal Difference-læring

book
SARSA: On-Policy TD-Læring

Akkurat som med Monte Carlo-metoder, kan vi følge generalized policy iteration (GPI)-rammeverket for å gå fra å estimere verdifunksjoner til å lære optimale strategier. Denne prosessen introduserer imidlertid en velkjent utfordring: utforsknings-utnyttelses-dilemmaet. På samme måte finnes det to tilnærminger vi kan bruke: on-policy og off-policy. Først skal vi se på on-policy-metoden — SARSA.

Note
Definisjon

SARSA er en on-policy TD-kontrollalgoritme som brukes til å estimere handlingsverdifunksjonen qπ(s,a)q_\pi(s, a). Den oppdaterer sine estimater basert på handlingen som faktisk ble utført, noe som gjør den til en on-policy algoritme.

Forkortelsen SARSA kommer fra de fem sentrale komponentene som brukes i oppdateringen:

  • S: nåværende tilstand StS_t;
  • A: handling utført AtA_t;
  • R: mottatt belønning Rt+1R_{t+1};
  • S: neste tilstand St+1S_{t+1};
  • A: neste handling At+1A_{t+1}.

Oppdateringsregel

Oppdateringsregelen ligner på TD(0), men erstatter tilstandsverdifunksjonen med handlingsverdifunksjonen:

Q(St,At)Q(St,At)+α(Rt+1+γQ(St+1,At+1)Q(St,At))Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma Q(S_{t+1}, A_{t+1}) - Q(S_t, A_t)\Bigr)

At+1A_{t+1} er handlingen som faktisk vil bli utført i neste steg, og den velges i henhold til gjeldende policy. Dette innebærer at effekten av utforskning blir inkludert i læringsprosessen.

Etter hver oppdatering av handlingsverdifunksjonen, oppdateres også policyen, slik at agenten umiddelbart kan benytte de nye estimatene.

Pseudokode

Når bør SARSA brukes?

SARSA er å foretrekke når:

  • Du arbeider med miljøer med høy stokastisitet (f.eks. glatte overflater, upålitelige overganger);
  • Det er akseptabelt med tregere konvergens i bytte mot tryggere atferd under læring.
question mark

I hvilket scenario er SARSA spesielt å foretrekke?

Select the correct answer

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 5. Kapittel 3

Spør AI

expand

Spør AI

ChatGPT

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

course content

Kursinnhold

Introduksjon til Forsterkende Læring

Introduksjon til Forsterkende Læring

1. Kjerneprinsipper i RL
2. Multi-Armet Bandittproblem
3. Dynamisk Programmering
4. Monte Carlo-metoder
5. Temporal Difference-læring

book
SARSA: On-Policy TD-Læring

Akkurat som med Monte Carlo-metoder, kan vi følge generalized policy iteration (GPI)-rammeverket for å gå fra å estimere verdifunksjoner til å lære optimale strategier. Denne prosessen introduserer imidlertid en velkjent utfordring: utforsknings-utnyttelses-dilemmaet. På samme måte finnes det to tilnærminger vi kan bruke: on-policy og off-policy. Først skal vi se på on-policy-metoden — SARSA.

Note
Definisjon

SARSA er en on-policy TD-kontrollalgoritme som brukes til å estimere handlingsverdifunksjonen qπ(s,a)q_\pi(s, a). Den oppdaterer sine estimater basert på handlingen som faktisk ble utført, noe som gjør den til en on-policy algoritme.

Forkortelsen SARSA kommer fra de fem sentrale komponentene som brukes i oppdateringen:

  • S: nåværende tilstand StS_t;
  • A: handling utført AtA_t;
  • R: mottatt belønning Rt+1R_{t+1};
  • S: neste tilstand St+1S_{t+1};
  • A: neste handling At+1A_{t+1}.

Oppdateringsregel

Oppdateringsregelen ligner på TD(0), men erstatter tilstandsverdifunksjonen med handlingsverdifunksjonen:

Q(St,At)Q(St,At)+α(Rt+1+γQ(St+1,At+1)Q(St,At))Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma Q(S_{t+1}, A_{t+1}) - Q(S_t, A_t)\Bigr)

At+1A_{t+1} er handlingen som faktisk vil bli utført i neste steg, og den velges i henhold til gjeldende policy. Dette innebærer at effekten av utforskning blir inkludert i læringsprosessen.

Etter hver oppdatering av handlingsverdifunksjonen, oppdateres også policyen, slik at agenten umiddelbart kan benytte de nye estimatene.

Pseudokode

Når bør SARSA brukes?

SARSA er å foretrekke når:

  • Du arbeider med miljøer med høy stokastisitet (f.eks. glatte overflater, upålitelige overganger);
  • Det er akseptabelt med tregere konvergens i bytte mot tryggere atferd under læring.
question mark

I hvilket scenario er SARSA spesielt å foretrekke?

Select the correct answer

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 5. Kapittel 3
some-alt