Lære Generalisering af TD-Læring | Temporal Difference Learning

Indtil nu har vi betragtet to ekstreme tilfælde af læring fra erfaring:

TD(0): anvender ét-trins retur;
Monte Carlo: venter til slutningen af episoden for at beregne returværdien.

Men hvad hvis vi ønsker noget midt imellem? Noget der udnytter mere fremtidig information end TD(0), men som ikke behøver at vente på hele episoden som Monte Carlo?

Her kommer $n$ -trins TD-læring og TD( $\lambda$ ) ind i billedet — metoder, der forener og generaliserer de idéer, vi hidtil har set.

$\Large n$ -Trins TD-læring

Idéen bag $n$ -trins TD-læring er enkel: i stedet for kun at bruge det næste trin eller hele episoden, anvender vi de næste $n$ trin, og derefter bootstrap:

G_t^{(n)} = R_{t+1} + \gamma R_{t+2} + ... + \gamma^{n-1} R_{t+n} + \gamma^n V(S_{t+1})

Dette muliggør en afvejning:

Når $n = 1$ : svarer det til TD(0);
Når $n = \infty$ : bliver det til Monte Carlo.

Disse returværdier kan derefter bruges til at erstatte målet i TD(0) opdateringsreglen:

V(S_t) \gets V(S_t) + \alpha\Bigl(G_t^{(n)} - V(S_t)\Bigr)

TD( $\Large\lambda$ )

TD( $\lambda$ ) er et smart koncept, der bygger videre på $n$ -trins TD-læring: i stedet for at vælge et fast $n$ , kombineres alle $n$ -trins afkast sammen:

L_t = (1 - \lambda) \sum_{n=0}^{\infty} \lambda^{n-1}G_t^{(n)}

hvor $\lambda \in [0, 1]$ styrer vægtningen:

Hvis $\lambda = 0$ : kun ét-trins afkast $\to$ TD(0);
Hvis $\lambda = 1$ : fuldt afkast $\to$ Monte Carlo;
Mellemværdier blander flere trins afkast.

Så $\lambda$ fungerer som en bias-varians afvejningsknap:

Lav $\lambda$ : mere bias, mindre varians;
Høj $\lambda$ : mindre bias, mere varians.

$L_t$ kan derefter bruges som opdateringsmål i TD(0)-opdateringsreglen:

V(S_t) \gets V(S_t) + \alpha\Bigl(L_t - V(S_t)\Bigr)

Var alt klart?

Tak for dine kommentarer!

Sektion 5. Kapitel 5

Spørg AI

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Stryg for at vise menuen

Indtil nu har vi betragtet to ekstreme tilfælde af læring fra erfaring:

TD(0): anvender ét-trins retur;
Monte Carlo: venter til slutningen af episoden for at beregne returværdien.

Men hvad hvis vi ønsker noget midt imellem? Noget der udnytter mere fremtidig information end TD(0), men som ikke behøver at vente på hele episoden som Monte Carlo?

Her kommer $n$ -trins TD-læring og TD( $\lambda$ ) ind i billedet — metoder, der forener og generaliserer de idéer, vi hidtil har set.

$\Large n$ -Trins TD-læring

Idéen bag $n$ -trins TD-læring er enkel: i stedet for kun at bruge det næste trin eller hele episoden, anvender vi de næste $n$ trin, og derefter bootstrap:

G_t^{(n)} = R_{t+1} + \gamma R_{t+2} + ... + \gamma^{n-1} R_{t+n} + \gamma^n V(S_{t+1})

Dette muliggør en afvejning:

Når $n = 1$ : svarer det til TD(0);
Når $n = \infty$ : bliver det til Monte Carlo.

Disse returværdier kan derefter bruges til at erstatte målet i TD(0) opdateringsreglen:

V(S_t) \gets V(S_t) + \alpha\Bigl(G_t^{(n)} - V(S_t)\Bigr)

TD( $\Large\lambda$ )

TD( $\lambda$ ) er et smart koncept, der bygger videre på $n$ -trins TD-læring: i stedet for at vælge et fast $n$ , kombineres alle $n$ -trins afkast sammen:

L_t = (1 - \lambda) \sum_{n=0}^{\infty} \lambda^{n-1}G_t^{(n)}

hvor $\lambda \in [0, 1]$ styrer vægtningen:

Hvis $\lambda = 0$ : kun ét-trins afkast $\to$ TD(0);
Hvis $\lambda = 1$ : fuldt afkast $\to$ Monte Carlo;
Mellemværdier blander flere trins afkast.

Så $\lambda$ fungerer som en bias-varians afvejningsknap:

Lav $\lambda$ : mere bias, mindre varians;
Høj $\lambda$ : mindre bias, mere varians.

$L_t$ kan derefter bruges som opdateringsmål i TD(0)-opdateringsreglen:

V(S_t) \gets V(S_t) + \alpha\Bigl(L_t - V(S_t)\Bigr)

Var alt klart?

Tak for dine kommentarer!

Sektion 5. Kapitel 5

Generalisering af TD-Læring

n\Large nn-Trins TD-læring

TD(λ\Large\lambdaλ)

Generalisering af TD-Læring

n\Large nn-Trins TD-læring

TD(λ\Large\lambdaλ)

$\Large n$ -Trins TD-læring

TD( $\Large\lambda$ )

$\Large n$ -Trins TD-læring

TD( $\Large\lambda$ )