SARSA: On-Policy TD-Læring
Akkurat som med Monte Carlo-metoder kan vi følge generalized policy iteration (GPI)-rammeverket for å gå fra å estimere verdifunksjoner til å lære optimale strategier. Denne prosessen introduserer imidlertid en velkjent utfordring: utforsking-utnyttelse-avveiningen. På samme måte finnes det to tilnærminger vi kan bruke: on-policy og off-policy. Først skal vi se på on-policy-metoden — SARSA.
SARSA er en on-policy TD-kontrollalgoritme som brukes til å estimere handlingsverdifunksjonen qπ(s,a). Den oppdaterer sine estimater basert på handlingen som faktisk ble utført, noe som gjør den til en on-policy-algoritme.
Forkortelsen SARSA kommer fra de fem nøkkelkomponentene som brukes i oppdateringen:
- S: nåværende tilstand St;
- A: valgt handling At;
- R: mottatt belønning Rt+1;
- S: neste tilstand St+1;
- A: neste handling At+1.
Oppdateringsregel
Oppdateringsregelen ligner på TD(0), men erstatter tilstandsverdifunksjonen med handlingsverdifunksjonen:
Q(St,At)←Q(St,At)+α(Rt+1+γQ(St+1,At+1)−Q(St,At))At+1 er handlingen som faktisk vil bli utført i neste steg, og den velges i henhold til gjeldende policy. Dette innebærer at effekten av utforskning blir en del av læringsprosessen.
Etter hver oppdatering av handlingsverdifunksjonen oppdateres også policyen, slik at agenten umiddelbart kan benytte de nye estimatene.
Pseudokode
Når bør SARSA brukes?
SARSA er å foretrekke når:
- Du arbeider med miljøer med høy stokastisitet (f.eks. glatte overflater, upålitelige overganger);
- Det er akseptabelt med tregere konvergens i bytte mot tryggere atferd under læring.
Takk for tilbakemeldingene dine!
Spør AI
Spør AI
Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår
Can you explain the difference between SARSA and Q-learning?
How does the exploration-exploitation tradeoff affect SARSA?
Can you give an example of when SARSA would be better than other methods?
Awesome!
Completion rate improved to 2.7
SARSA: On-Policy TD-Læring
Sveip for å vise menyen
Akkurat som med Monte Carlo-metoder kan vi følge generalized policy iteration (GPI)-rammeverket for å gå fra å estimere verdifunksjoner til å lære optimale strategier. Denne prosessen introduserer imidlertid en velkjent utfordring: utforsking-utnyttelse-avveiningen. På samme måte finnes det to tilnærminger vi kan bruke: on-policy og off-policy. Først skal vi se på on-policy-metoden — SARSA.
SARSA er en on-policy TD-kontrollalgoritme som brukes til å estimere handlingsverdifunksjonen qπ(s,a). Den oppdaterer sine estimater basert på handlingen som faktisk ble utført, noe som gjør den til en on-policy-algoritme.
Forkortelsen SARSA kommer fra de fem nøkkelkomponentene som brukes i oppdateringen:
- S: nåværende tilstand St;
- A: valgt handling At;
- R: mottatt belønning Rt+1;
- S: neste tilstand St+1;
- A: neste handling At+1.
Oppdateringsregel
Oppdateringsregelen ligner på TD(0), men erstatter tilstandsverdifunksjonen med handlingsverdifunksjonen:
Q(St,At)←Q(St,At)+α(Rt+1+γQ(St+1,At+1)−Q(St,At))At+1 er handlingen som faktisk vil bli utført i neste steg, og den velges i henhold til gjeldende policy. Dette innebærer at effekten av utforskning blir en del av læringsprosessen.
Etter hver oppdatering av handlingsverdifunksjonen oppdateres også policyen, slik at agenten umiddelbart kan benytte de nye estimatene.
Pseudokode
Når bør SARSA brukes?
SARSA er å foretrekke når:
- Du arbeider med miljøer med høy stokastisitet (f.eks. glatte overflater, upålitelige overganger);
- Det er akseptabelt med tregere konvergens i bytte mot tryggere atferd under læring.
Takk for tilbakemeldingene dine!