Lære Generalisering av TD-læring | Temporal Difference-læring

Til nå har vi vurdert to ytterpunkter for læring fra erfaring:

TD(0): bruker ett-stegs retur;
Monte Carlo: venter til slutten av episoden for å beregne returverdien.

Men hva om vi ønsker noe midt imellom? Noe som utnytter mer fremtidig informasjon enn TD(0), men som ikke trenger å vente til hele episoden er ferdig slik som Monte Carlo?

Dette er hvor $n$ -stegs TD-læring og TD( $\lambda$ ) kommer inn — metoder som forener og generaliserer ideene vi har sett så langt.

$\Large n$ -stegs TD-læring

Ideen bak $n$ -stegs TD-læring er enkel: i stedet for å bruke kun neste steg eller hele episoden, bruker vi de neste $n$ stegene, og deretter bootstrap:

G_t^{(n)} = R_{t+1} + \gamma R_{t+2} + ... + \gamma^{n-1} R_{t+n} + \gamma^n V(S_{t+1})

Dette gir en avveining:

Når $n = 1$ : er det bare TD(0);
Når $n = \infty$ : blir det Monte Carlo.

Disse returverdiene kan så brukes til å erstatte målet i TD(0)-oppdateringsregelen:

V(S_t) \gets V(S_t) + \alpha\Bigl(G_t^{(n)} - V(S_t)\Bigr)

TD( $\Large\lambda$ )

TD( $\lambda$ ) er et smart konsept som bygger videre på $n$ -stegs TD-læring: i stedet for å velge en fast $n$ , kombinerer vi alle $n$ -stegs avkastninger sammen:

L_t = (1 - \lambda) \sum_{n=0}^{\infty} \lambda^{n-1}G_t^{(n)}

hvor $\lambda \in [0, 1]$ styrer vektingen:

Hvis $\lambda = 0$ : kun ett-stegs avkastning $\to$ TD(0);
Hvis $\lambda = 1$ : full avkastning $\to$ Monte Carlo;
Mellomverdier blander flere stegs avkastninger.

Dermed fungerer $\lambda$ som en innstillingsknapp for bias-varians-kompromiss:

Lav $\lambda$ : mer bias, mindre variasjon;
Høy $\lambda$ : mindre bias, mer variasjon.

$L_t$ kan deretter brukes som oppdateringsmål i TD(0)-oppdateringsregelen:

V(S_t) \gets V(S_t) + \alpha\Bigl(L_t - V(S_t)\Bigr)

Alt var klart?

Takk for tilbakemeldingene dine!

Seksjon 5. Kapittel 5

Spør AI

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Suggested prompts:

Can you explain how to choose the best value for $$n$$ or $$\lambda$$ in practice?

What are the main advantages and disadvantages of using TD($$\lambda$$) compared to TD(0) and Monte Carlo?

Can you provide an example to illustrate how n-step TD learning works?

Sveip for å vise menyen

Til nå har vi vurdert to ytterpunkter for læring fra erfaring:

TD(0): bruker ett-stegs retur;
Monte Carlo: venter til slutten av episoden for å beregne returverdien.

Men hva om vi ønsker noe midt imellom? Noe som utnytter mer fremtidig informasjon enn TD(0), men som ikke trenger å vente til hele episoden er ferdig slik som Monte Carlo?

Dette er hvor $n$ -stegs TD-læring og TD( $\lambda$ ) kommer inn — metoder som forener og generaliserer ideene vi har sett så langt.

$\Large n$ -stegs TD-læring

Ideen bak $n$ -stegs TD-læring er enkel: i stedet for å bruke kun neste steg eller hele episoden, bruker vi de neste $n$ stegene, og deretter bootstrap:

G_t^{(n)} = R_{t+1} + \gamma R_{t+2} + ... + \gamma^{n-1} R_{t+n} + \gamma^n V(S_{t+1})

Dette gir en avveining:

Når $n = 1$ : er det bare TD(0);
Når $n = \infty$ : blir det Monte Carlo.

Disse returverdiene kan så brukes til å erstatte målet i TD(0)-oppdateringsregelen:

V(S_t) \gets V(S_t) + \alpha\Bigl(G_t^{(n)} - V(S_t)\Bigr)

TD( $\Large\lambda$ )

TD( $\lambda$ ) er et smart konsept som bygger videre på $n$ -stegs TD-læring: i stedet for å velge en fast $n$ , kombinerer vi alle $n$ -stegs avkastninger sammen:

L_t = (1 - \lambda) \sum_{n=0}^{\infty} \lambda^{n-1}G_t^{(n)}

hvor $\lambda \in [0, 1]$ styrer vektingen:

Hvis $\lambda = 0$ : kun ett-stegs avkastning $\to$ TD(0);
Hvis $\lambda = 1$ : full avkastning $\to$ Monte Carlo;
Mellomverdier blander flere stegs avkastninger.

Dermed fungerer $\lambda$ som en innstillingsknapp for bias-varians-kompromiss:

Lav $\lambda$ : mer bias, mindre variasjon;
Høy $\lambda$ : mindre bias, mer variasjon.

$L_t$ kan deretter brukes som oppdateringsmål i TD(0)-oppdateringsregelen:

V(S_t) \gets V(S_t) + \alpha\Bigl(L_t - V(S_t)\Bigr)

Alt var klart?

Takk for tilbakemeldingene dine!

Seksjon 5. Kapittel 5

Generalisering av TD-læring

n\Large nn-stegs TD-læring

TD(λ\Large\lambdaλ)

Generalisering av TD-læring

n\Large nn-stegs TD-læring

TD(λ\Large\lambdaλ)

$\Large n$ -stegs TD-læring

TD( $\Large\lambda$ )

$\Large n$ -stegs TD-læring

TD( $\Large\lambda$ )