Generalisering av TD-læring
Til nå har vi vurdert to ytterpunkter for læring fra erfaring:
- TD(0): bruker ettstegs retur;
- Monte Carlo: venter til slutten av episoden for å beregne returverdien.
Men hva om vi ønsker noe midt imellom? Noe som utnytter mer fremtidig informasjon enn TD(0), men som ikke trenger å vente til hele episoden er ferdig slik som Monte Carlo?
Dette er hvor n-stegs TD-læring og TD(λ) kommer inn — metoder som forener og generaliserer ideene vi har sett så langt.
n-stegs TD-læring
Ideen bak n-stegs TD-læring er enkel: i stedet for å bruke bare neste steg eller hele episoden, bruker vi de neste n stegene, og deretter bootstrapper vi:
Gt(n)=Rt+1+γRt+2+...+γn−1Rt+n+γnV(St+1)Dette gir en avveining:
- Når n=1: er det bare TD(0);
- Når n=∞: blir det Monte Carlo.
Disse returverdiene kan deretter brukes til å erstatte målet i TD(0)-oppdateringsregelen:
V(St)←V(St)+α(Gt(n)−V(St))TD(λ)
TD(λ) er et smart konsept som bygger videre på n-stegs TD-læring: i stedet for å velge en fast n, kombinerer vi alle n-stegs avkastninger sammen:
Lt=(1−λ)n=0∑∞λn−1Gt(n)hvor λ∈[0,1] styrer vektingen:
- Hvis λ=0: kun ett-stegs avkastning → TD(0);
- Hvis λ=1: full avkastning → Monte Carlo;
- Mellomverdier blander flere stegs avkastninger.
Dermed fungerer λ som en bias-varians-justering:
- Lav λ: mer bias, mindre varians;
- Høy λ: mindre bias, mer varians.
Lt kan deretter brukes som oppdateringsmål i TD(0)-oppdateringsregelen:
V(St)←V(St)+α(Lt−V(St))Takk for tilbakemeldingene dine!
Spør AI
Spør AI
Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår
Awesome!
Completion rate improved to 2.7
Generalisering av TD-læring
Sveip for å vise menyen
Til nå har vi vurdert to ytterpunkter for læring fra erfaring:
- TD(0): bruker ettstegs retur;
- Monte Carlo: venter til slutten av episoden for å beregne returverdien.
Men hva om vi ønsker noe midt imellom? Noe som utnytter mer fremtidig informasjon enn TD(0), men som ikke trenger å vente til hele episoden er ferdig slik som Monte Carlo?
Dette er hvor n-stegs TD-læring og TD(λ) kommer inn — metoder som forener og generaliserer ideene vi har sett så langt.
n-stegs TD-læring
Ideen bak n-stegs TD-læring er enkel: i stedet for å bruke bare neste steg eller hele episoden, bruker vi de neste n stegene, og deretter bootstrapper vi:
Gt(n)=Rt+1+γRt+2+...+γn−1Rt+n+γnV(St+1)Dette gir en avveining:
- Når n=1: er det bare TD(0);
- Når n=∞: blir det Monte Carlo.
Disse returverdiene kan deretter brukes til å erstatte målet i TD(0)-oppdateringsregelen:
V(St)←V(St)+α(Gt(n)−V(St))TD(λ)
TD(λ) er et smart konsept som bygger videre på n-stegs TD-læring: i stedet for å velge en fast n, kombinerer vi alle n-stegs avkastninger sammen:
Lt=(1−λ)n=0∑∞λn−1Gt(n)hvor λ∈[0,1] styrer vektingen:
- Hvis λ=0: kun ett-stegs avkastning → TD(0);
- Hvis λ=1: full avkastning → Monte Carlo;
- Mellomverdier blander flere stegs avkastninger.
Dermed fungerer λ som en bias-varians-justering:
- Lav λ: mer bias, mindre varians;
- Høy λ: mindre bias, mer varians.
Lt kan deretter brukes som oppdateringsmål i TD(0)-oppdateringsregelen:
V(St)←V(St)+α(Lt−V(St))Takk for tilbakemeldingene dine!