Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære SARSA: On-Policy TD-Læring | Temporal Difference-læring
Introduksjon til forsterkningslæring

bookSARSA: On-Policy TD-Læring

Akkurat som med Monte Carlo-metoder kan vi følge generalized policy iteration (GPI)-rammeverket for å gå fra å estimere verdifunksjoner til å lære optimale strategier. Denne prosessen introduserer imidlertid en velkjent utfordring: utforsking-utnyttelse-avveiningen. På samme måte finnes det to tilnærminger vi kan bruke: on-policy og off-policy. Først skal vi se på on-policy-metoden — SARSA.

Note
Definisjon

SARSA er en on-policy TD-kontrollalgoritme som brukes til å estimere handlingsverdifunksjonen qπ(s,a)q_\pi(s, a). Den oppdaterer sine estimater basert på handlingen som faktisk ble utført, noe som gjør den til en on-policy-algoritme.

Forkortelsen SARSA kommer fra de fem nøkkelkomponentene som brukes i oppdateringen:

  • S: nåværende tilstand StS_t;
  • A: valgt handling AtA_t;
  • R: mottatt belønning Rt+1R_{t+1};
  • S: neste tilstand St+1S_{t+1};
  • A: neste handling At+1A_{t+1}.

Oppdateringsregel

Oppdateringsregelen ligner på TD(0), men erstatter tilstandsverdifunksjonen med handlingsverdifunksjonen:

Q(St,At)Q(St,At)+α(Rt+1+γQ(St+1,At+1)Q(St,At))Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma Q(S_{t+1}, A_{t+1}) - Q(S_t, A_t)\Bigr)

At+1A_{t+1} er handlingen som faktisk vil bli utført i neste steg, og den velges i henhold til gjeldende policy. Dette innebærer at effekten av utforskning blir en del av læringsprosessen.

Etter hver oppdatering av handlingsverdifunksjonen oppdateres også policyen, slik at agenten umiddelbart kan benytte de nye estimatene.

Pseudokode

Når bør SARSA brukes?

SARSA er å foretrekke når:

  • Du arbeider med miljøer med høy stokastisitet (f.eks. glatte overflater, upålitelige overganger);
  • Det er akseptabelt med tregere konvergens i bytte mot tryggere atferd under læring.
question mark

I hvilket scenario er SARSA spesielt å foretrekke?

Select the correct answer

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 5. Kapittel 3

Spør AI

expand

Spør AI

ChatGPT

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Suggested prompts:

Can you explain the difference between SARSA and Q-learning?

How does the exploration-exploitation tradeoff affect SARSA?

Can you give an example of when SARSA would be better than other methods?

Awesome!

Completion rate improved to 2.7

bookSARSA: On-Policy TD-Læring

Sveip for å vise menyen

Akkurat som med Monte Carlo-metoder kan vi følge generalized policy iteration (GPI)-rammeverket for å gå fra å estimere verdifunksjoner til å lære optimale strategier. Denne prosessen introduserer imidlertid en velkjent utfordring: utforsking-utnyttelse-avveiningen. På samme måte finnes det to tilnærminger vi kan bruke: on-policy og off-policy. Først skal vi se på on-policy-metoden — SARSA.

Note
Definisjon

SARSA er en on-policy TD-kontrollalgoritme som brukes til å estimere handlingsverdifunksjonen qπ(s,a)q_\pi(s, a). Den oppdaterer sine estimater basert på handlingen som faktisk ble utført, noe som gjør den til en on-policy-algoritme.

Forkortelsen SARSA kommer fra de fem nøkkelkomponentene som brukes i oppdateringen:

  • S: nåværende tilstand StS_t;
  • A: valgt handling AtA_t;
  • R: mottatt belønning Rt+1R_{t+1};
  • S: neste tilstand St+1S_{t+1};
  • A: neste handling At+1A_{t+1}.

Oppdateringsregel

Oppdateringsregelen ligner på TD(0), men erstatter tilstandsverdifunksjonen med handlingsverdifunksjonen:

Q(St,At)Q(St,At)+α(Rt+1+γQ(St+1,At+1)Q(St,At))Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma Q(S_{t+1}, A_{t+1}) - Q(S_t, A_t)\Bigr)

At+1A_{t+1} er handlingen som faktisk vil bli utført i neste steg, og den velges i henhold til gjeldende policy. Dette innebærer at effekten av utforskning blir en del av læringsprosessen.

Etter hver oppdatering av handlingsverdifunksjonen oppdateres også policyen, slik at agenten umiddelbart kan benytte de nye estimatene.

Pseudokode

Når bør SARSA brukes?

SARSA er å foretrekke når:

  • Du arbeider med miljøer med høy stokastisitet (f.eks. glatte overflater, upålitelige overganger);
  • Det er akseptabelt med tregere konvergens i bytte mot tryggere atferd under læring.
question mark

I hvilket scenario er SARSA spesielt å foretrekke?

Select the correct answer

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 5. Kapittel 3
some-alt