SARSA: On-Policy TD-Læring
Akkurat som med Monte Carlo-metoder, kan vi følge generalized policy iteration (GPI)-rammeverket for å gå fra å estimere verdifunksjoner til å lære optimale strategier. Denne prosessen introduserer imidlertid en velkjent utfordring: utforsknings-utnyttelses-dilemmaet. På samme måte finnes det to tilnærminger vi kan bruke: on-policy og off-policy. Først skal vi se på on-policy-metoden — SARSA.
SARSA er en on-policy TD-kontrollalgoritme som brukes til å estimere handlingsverdifunksjonen qπ(s,a). Den oppdaterer sine estimater basert på handlingen som faktisk ble utført, noe som gjør den til en on-policy algoritme.
Forkortelsen SARSA kommer fra de fem sentrale komponentene som brukes i oppdateringen:
- S: nåværende tilstand St;
- A: handling utført At;
- R: mottatt belønning Rt+1;
- S: neste tilstand St+1;
- A: neste handling At+1.
Oppdateringsregel
Oppdateringsregelen ligner på TD(0), men erstatter tilstandsverdifunksjonen med handlingsverdifunksjonen:
Q(St,At)←Q(St,At)+α(Rt+1+γQ(St+1,At+1)−Q(St,At))At+1 er handlingen som faktisk vil bli utført i neste steg, og den velges i henhold til gjeldende policy. Dette innebærer at effekten av utforskning blir inkludert i læringsprosessen.
Etter hver oppdatering av handlingsverdifunksjonen, oppdateres også policyen, slik at agenten umiddelbart kan benytte de nye estimatene.
Pseudokode
Når bør SARSA brukes?
SARSA er å foretrekke når:
- Du arbeider med miljøer med høy stokastisitet (f.eks. glatte overflater, upålitelige overganger);
- Det er akseptabelt med tregere konvergens i bytte mot tryggere atferd under læring.
Takk for tilbakemeldingene dine!
Spør AI
Spør AI
Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår
Awesome!
Completion rate improved to 2.7
SARSA: On-Policy TD-Læring
Sveip for å vise menyen
Akkurat som med Monte Carlo-metoder, kan vi følge generalized policy iteration (GPI)-rammeverket for å gå fra å estimere verdifunksjoner til å lære optimale strategier. Denne prosessen introduserer imidlertid en velkjent utfordring: utforsknings-utnyttelses-dilemmaet. På samme måte finnes det to tilnærminger vi kan bruke: on-policy og off-policy. Først skal vi se på on-policy-metoden — SARSA.
SARSA er en on-policy TD-kontrollalgoritme som brukes til å estimere handlingsverdifunksjonen qπ(s,a). Den oppdaterer sine estimater basert på handlingen som faktisk ble utført, noe som gjør den til en on-policy algoritme.
Forkortelsen SARSA kommer fra de fem sentrale komponentene som brukes i oppdateringen:
- S: nåværende tilstand St;
- A: handling utført At;
- R: mottatt belønning Rt+1;
- S: neste tilstand St+1;
- A: neste handling At+1.
Oppdateringsregel
Oppdateringsregelen ligner på TD(0), men erstatter tilstandsverdifunksjonen med handlingsverdifunksjonen:
Q(St,At)←Q(St,At)+α(Rt+1+γQ(St+1,At+1)−Q(St,At))At+1 er handlingen som faktisk vil bli utført i neste steg, og den velges i henhold til gjeldende policy. Dette innebærer at effekten av utforskning blir inkludert i læringsprosessen.
Etter hver oppdatering av handlingsverdifunksjonen, oppdateres også policyen, slik at agenten umiddelbart kan benytte de nye estimatene.
Pseudokode
Når bør SARSA brukes?
SARSA er å foretrekke når:
- Du arbeider med miljøer med høy stokastisitet (f.eks. glatte overflater, upålitelige overganger);
- Det er akseptabelt med tregere konvergens i bytte mot tryggere atferd under læring.
Takk for tilbakemeldingene dine!