Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Generalisering av TD-læring | Temporal Difference-læring
Introduksjon til Forsterkende Læring
course content

Kursinnhold

Introduksjon til Forsterkende Læring

Introduksjon til Forsterkende Læring

1. Kjerneprinsipper i RL
2. Multi-Armet Bandittproblem
3. Dynamisk Programmering
4. Monte Carlo-metoder
5. Temporal Difference-læring

book
Generalisering av TD-læring

Til nå har vi vurdert to ytterpunkter for læring fra erfaring:

  • TD(0): bruker ettstegs retur;
  • Monte Carlo: venter til slutten av episoden for å beregne returverdien.

Men hva om vi ønsker noe midt imellom? Noe som utnytter mer fremtidig informasjon enn TD(0), men som ikke trenger å vente til hele episoden er ferdig slik som Monte Carlo?

Dette er hvor nn-stegs TD-læring og TD(λ\lambda) kommer inn — metoder som forener og generaliserer ideene vi har sett så langt.

n\Large n-stegs TD-læring

Ideen bak nn-stegs TD-læring er enkel: i stedet for å bruke bare neste steg eller hele episoden, bruker vi de neste nn stegene, og deretter bootstrapper vi:

Gt(n)=Rt+1+γRt+2+...+γn1Rt+n+γnV(St+1)G_t^{(n)} = R_{t+1} + \gamma R_{t+2} + ... + \gamma^{n-1} R_{t+n} + \gamma^n V(S_{t+1})

Dette gir en avveining:

  • Når n=1n = 1: er det bare TD(0);
  • Når n=n = \infty: blir det Monte Carlo.

Disse returverdiene kan deretter brukes til å erstatte målet i TD(0)-oppdateringsregelen:

V(St)V(St)+α(Gt(n)V(St))V(S_t) \gets V(S_t) + \alpha\Bigl(G_t^{(n)} - V(S_t)\Bigr)

TD(λ\Large\lambda)

TD(λ\lambda) er et smart konsept som bygger videre på nn-stegs TD-læring: i stedet for å velge en fast nn, kombinerer vi alle nn-stegs avkastninger sammen:

Lt=(1λ)n=0λn1Gt(n)L_t = (1 - \lambda) \sum_{n=0}^{\infty} \lambda^{n-1}G_t^{(n)}

hvor λ[0,1]\lambda \in [0, 1] styrer vektingen:

  • Hvis λ=0\lambda = 0: kun ett-stegs avkastning \to TD(0);
  • Hvis λ=1\lambda = 1: full avkastning \to Monte Carlo;
  • Mellomverdier blander flere stegs avkastninger.

Dermed fungerer λ\lambda som en bias-varians-justering:

  • Lav λ\lambda: mer bias, mindre varians;
  • Høy λ\lambda: mindre bias, mer varians.

LtL_t kan deretter brukes som oppdateringsmål i TD(0)-oppdateringsregelen:

V(St)V(St)+α(LtV(St))V(S_t) \gets V(S_t) + \alpha\Bigl(L_t - V(S_t)\Bigr)
question mark

Når parameteren λ\lambda settes til 1 i TD(λ\lambda), blir metoden ekvivalent med

Select the correct answer

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 5. Kapittel 5

Spør AI

expand

Spør AI

ChatGPT

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

course content

Kursinnhold

Introduksjon til Forsterkende Læring

Introduksjon til Forsterkende Læring

1. Kjerneprinsipper i RL
2. Multi-Armet Bandittproblem
3. Dynamisk Programmering
4. Monte Carlo-metoder
5. Temporal Difference-læring

book
Generalisering av TD-læring

Til nå har vi vurdert to ytterpunkter for læring fra erfaring:

  • TD(0): bruker ettstegs retur;
  • Monte Carlo: venter til slutten av episoden for å beregne returverdien.

Men hva om vi ønsker noe midt imellom? Noe som utnytter mer fremtidig informasjon enn TD(0), men som ikke trenger å vente til hele episoden er ferdig slik som Monte Carlo?

Dette er hvor nn-stegs TD-læring og TD(λ\lambda) kommer inn — metoder som forener og generaliserer ideene vi har sett så langt.

n\Large n-stegs TD-læring

Ideen bak nn-stegs TD-læring er enkel: i stedet for å bruke bare neste steg eller hele episoden, bruker vi de neste nn stegene, og deretter bootstrapper vi:

Gt(n)=Rt+1+γRt+2+...+γn1Rt+n+γnV(St+1)G_t^{(n)} = R_{t+1} + \gamma R_{t+2} + ... + \gamma^{n-1} R_{t+n} + \gamma^n V(S_{t+1})

Dette gir en avveining:

  • Når n=1n = 1: er det bare TD(0);
  • Når n=n = \infty: blir det Monte Carlo.

Disse returverdiene kan deretter brukes til å erstatte målet i TD(0)-oppdateringsregelen:

V(St)V(St)+α(Gt(n)V(St))V(S_t) \gets V(S_t) + \alpha\Bigl(G_t^{(n)} - V(S_t)\Bigr)

TD(λ\Large\lambda)

TD(λ\lambda) er et smart konsept som bygger videre på nn-stegs TD-læring: i stedet for å velge en fast nn, kombinerer vi alle nn-stegs avkastninger sammen:

Lt=(1λ)n=0λn1Gt(n)L_t = (1 - \lambda) \sum_{n=0}^{\infty} \lambda^{n-1}G_t^{(n)}

hvor λ[0,1]\lambda \in [0, 1] styrer vektingen:

  • Hvis λ=0\lambda = 0: kun ett-stegs avkastning \to TD(0);
  • Hvis λ=1\lambda = 1: full avkastning \to Monte Carlo;
  • Mellomverdier blander flere stegs avkastninger.

Dermed fungerer λ\lambda som en bias-varians-justering:

  • Lav λ\lambda: mer bias, mindre varians;
  • Høy λ\lambda: mindre bias, mer varians.

LtL_t kan deretter brukes som oppdateringsmål i TD(0)-oppdateringsregelen:

V(St)V(St)+α(LtV(St))V(S_t) \gets V(S_t) + \alpha\Bigl(L_t - V(S_t)\Bigr)
question mark

Når parameteren λ\lambda settes til 1 i TD(λ\lambda), blir metoden ekvivalent med

Select the correct answer

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 5. Kapittel 5
some-alt